コメントNo.3 (第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）):後藤和智の若者論と統計学っぽいブロマガ : 後藤和智の若者論と統計学っぽいチャンネル (後藤和智)

shell mac のコメント

ちょっと説明が飛躍しすぎた。例えば説明変数が離散変数の場合、つまりダミー変数の場合は
http://monge.tec.fukuoka-u.ac.jp/r_analysis/test_anova21.html
この表、どれを見てもサンプル１～サンプル５まで横方向だと測定回数が同じになってることに気づくはず。なぜ
こうするのかというと、逆にいない場合を見ればわかる。つまり表４の場合、データが
歯抜けになっている場合、サンプルサイズによって重み付け平均を
計算しなければならない（めんどい）。

また、今回の場合がそうなんだけど、そもそもデータがどの範囲から取られたのか、というのが母集団の推定に影響する
と思う。たとえばよくある調査に中学生の性経験率３０％なんてのもがあるけど、あれはDQN校から採取されたデータから
解析した結果であり、推測する母集団もDQN集団にかぎるわけですよ。一般的に日本人中学生が性経験率３０はないんで。

次にダミー変数でなく、連続変数が説明変数だった時について。
同じように今回の艦これデータ、燃料を見ますと４００，２４０，５００などの数字で連続的というにはかなーり
間が開いていて、あいだの見えない（観測されていない）部分については強い前提が必要になるとおも。それは
さっきのDQN校の解析を無理やり一般日本人に当てはめるようなもので。。
イチャモンと思われる可能性があるので、さらに例を出すと、がん患者の例がありますね。仮にステージ４以上の患者に
同意の上でしか
この手法は使えません、という手法がある。この手法の副作用を論じたい時は同じステージ４以上の統制群の
患者と比較しなければ、平等な比較にならないんですね。ただ現実問題として軽度のステージの人間に劇薬なんか
処方できないですし、かといって比較できるのは同じ背景をもつ患者のみ、というジレンマなどがあるんですね。
というわけで別にイチャモンではなく本当に歯抜けデータには回帰分析しない方がいいとおもう。といっても
統計まだ１年ちょっとしか勉強していないので色々突っ込んでもらえると嬉しいです。

No.3 133ヶ月前

ポスト

このコメントは以下の記事についています

第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）

投稿日時:
2014/03/17 23:50

コメント:
29

すべてのコメント

ブロマガポータルTOP

フォロー

後藤和智の若者論と統計学っぽいチャンネル

このチャンネルの詳細