shell mac のコメント

答えから言うと、t検定も分散分析も連続変数を含んだ共分散分析も、全部線形モデルを通して行うことが可能。
それは「統計学は最強の~」に書いてあった通り。
その理由はというと、どれもデザイン行列を通して解析を行うことができるから、なんです。
分散分析のデザイン行列は、離散的変数を用いた線形モデルと一緒。
共分散分析のデザイン行列は、離散的変数、連続変数両方を用いた線形モデルと一緒。
このデザイン行列が何かというと、説明変数を一つの行列に束ねたもの、と考えればさしあたって問題ないです。

そして説明変数が独立かどうか、という話なんですけどこれは今回関係ないかも。
興味あるのはバランスしてるかどうかなんで。このバランスの話は繰り返しになるんだけど連続変数の場合は範囲が
共変量にわたって重なってることなんだよね。たとえば
http://www.socialresearchmethods.net/kb/quasird.php
英語よまなくていいですwこれはFigure.2だけ見てください。緑の線が統制群、青色の線が処理群です。
問題は割り当てのされ方なんです。統制群はpreが50を超えた部分にだけ割り当てられている。
処理群はpreが50未満にだけ割り当てられている。つまりpreの値において統制群と処理群が割り当てられた
部分が重なってる領域がない。こういう場合に統制群と処理群を比較してもいいんですかね~?というのが問題。

ちなみに上のURLの場合は処理と統制の割り当てが完璧にわかってるので、pre50のギリギリかさなってる範囲でのみ
回帰分析して良い、という手法(回帰分断デザインという)。らしい。

というわけで、本当に僕のイチャモンだけでなく。統計学では共変量にわたって重なってる部分しか比較できない、というのは常識(上のような処理の割り当てのされ方が完全に把握されている特殊例を除く)。

考えてみればわかるけど、上の分断デザインの例だとたとえば、学力に関しての回帰分析だと思えば理解しやすい。
preを家庭の収入、おのおのの点が子供達を表すとかんがえる。このとき収入が1000万以上ある家庭は必ず塾に行ける、
1000万未満だと絶対に塾に行けない。こういう場合に塾が子供の成績に与える影響を正答に評価できるかって話。
僕は無理だと思う。なぜなら、収入の条件が平等になってないからね。様々なレンジの所得の子供に、塾の有無が
割り振られてなければ、それが塾の影響によるものだとはいえないから。高所得家庭の子供は親戚関係が高学歴で
プレッシャーが強いから成績が高いのかもしれない。それは塾の影響ではない。

僕の歯抜けデータではダメという意味わかりましたか。ところで多分説明変数の範囲が共変量にわたって重なってる
部分だけとりだして比較すれば、回帰分析できるようなきもする。ただ解析結果が当てはまるその分範囲はせまくなるけど。

または分析結果で外挿していることを明言するとか。「ボーキが300~900までの値における弾薬の値は0になっている、
しかしその範囲で鋼材の値は観測されている。つまり現段階では分布が共変量にわたって等しいとはいえない。
だが新たな作戦が追加されていくうちに共変量における分布は等しくなるだろうと考えた。よってこの分析結果は妥当」とかね。

No.26 130ヶ月前

このコメントは以下の記事についています

後藤和智の若者論と統計学っぽいチャンネル

後藤和智の若者論と統計学っぽいチャンネル

このチャンネルの詳細