shell mac のコメント

ちょっと説明が飛躍しすぎた。例えば説明変数が離散変数の場合、つまりダミー変数の場合は
http://monge.tec.fukuoka-u.ac.jp/r_analysis/test_anova21.html
この表、どれを見てもサンプル1~サンプル5まで横方向だと測定回数が同じになってることに気づくはず。なぜ
こうするのかというと、逆にいない場合を見ればわかる。つまり表4の場合、データが
歯抜けになっている場合、サンプルサイズによって重み付け平均を
計算しなければならない(めんどい)。

また、今回の場合がそうなんだけど、そもそもデータがどの範囲から取られたのか、というのが母集団の推定に影響する
と思う。たとえばよくある調査に中学生の性経験率30%なんてのもがあるけど、あれはDQN校から採取されたデータから
解析した結果であり、推測する母集団もDQN集団にかぎるわけですよ。一般的に日本人中学生が性経験率30はないんで。

次にダミー変数でなく、連続変数が説明変数だった時について。
同じように今回の艦これデータ、燃料を見ますと400,240,500などの数字で連続的というにはかなーり
間が開いていて、あいだの見えない(観測されていない)部分については強い前提が必要になるとおも。それは
さっきのDQN校の解析を無理やり一般日本人に当てはめるようなもので。。
イチャモンと思われる可能性があるので、さらに例を出すと、がん患者の例がありますね。仮にステージ4以上の患者に
同意の上でしか
この手法は使えません、という手法がある。この手法の副作用を論じたい時は同じステージ4以上の統制群の
患者と比較しなければ、平等な比較にならないんですね。ただ現実問題として軽度のステージの人間に劇薬なんか
処方できないですし、かといって比較できるのは同じ背景をもつ患者のみ、というジレンマなどがあるんですね。
というわけで別にイチャモンではなく本当に歯抜けデータには回帰分析しない方がいいとおもう。といっても
統計まだ1年ちょっとしか勉強していないので色々突っ込んでもらえると嬉しいです。

No.3 130ヶ月前

このコメントは以下の記事についています

後藤和智の若者論と統計学っぽいチャンネル

後藤和智の若者論と統計学っぽいチャンネル

このチャンネルの詳細