レスきたー。まず、 1. データの性質について これは重要な問題ですね。そもそも回帰分析をする前にデータが無作為抽出され、無作為割り当てがされているかどうか、 というのが分析前の大前提になっているからですね。そうでないと母集団の推測がうまくいかない。DQN校の例のように 偏った分析結果しかもたらさない。 ただ今回は母集団そのものが対象なため、問題に当たらない、そういうことですよね? つまりサンプリング方法に問題はないということと理解してもいいですか?(というかサンプルじゃなく母集団をみてるので) これについてはちょっと反省でいろんな事を一気に書きすぎてしまって論点がぼやけてしまいました。反省。 ということで以下では”強く無視できる割り当て条件”などの処理群の不偏性についての話はしません。 まあ僕が書きたかったことは、回帰分析はバランスしているデータにしか使えない、という事だけでした。それは上で話したデータの性質(サンプリング方法)ではないんです。なら書くなよって話ですがwww 回帰分析だけでなく分散分析もt検定も正規分布が根っこにある検定はどれもそうなんですが、各水準のデータがバランスしていることが必要です。これはデータがどこから取られたという話でなく純粋に数学の話で 正規分布の再生性のことです。X~Normal(平均=0,分散=1) iidのとき(X1+X2+X3+X4+X5)/5 ~ Normal(0,1/5) (X1+X2)/2 ~ Normal(0,1/2) となりますね。この時前者と後者を比較してみた時、平均値は同じ0でも分散が違うのがわかるでしょうか? そういうわけで分散分析の時(離散的変数の時)、なんらかの水準1と水準2でデータ数がバランスしてないと「正規分布が根っこにある」解析は出来ないんです。(係数の標準偏差の値が正しくなくなる) そして今回は連続変数の場合ですがバランスと言う言葉は、ある説明変数の分布の形と範囲が共変量になっている 変数にわたって似ていることが条件です。例えば今回の例をあげると ボーキが300~900までの値における弾薬の値は観察されてませんね、しかしその範囲で鋼材の値は観測されている。 つまり分布が他の共変量にわたって異なるということがわかる。 つまり割り当て条件ではなく、正規分布を仮定した分析で使っちゃダメなデータ、ということです。 ただウェルチのt検定のようにバランスしていない場合でも解析できる方法があるみたいなんですけど、、、回帰分析の場合は 知らないです。(とくに連続変数が入っている場合)もし知ってたら教えてください。
フォロー
後藤和智の若者論と統計学っぽいチャンネル
(ID:15571176)
レスきたー。まず、
1. データの性質について
これは重要な問題ですね。そもそも回帰分析をする前にデータが無作為抽出され、無作為割り当てがされているかどうか、
というのが分析前の大前提になっているからですね。そうでないと母集団の推測がうまくいかない。DQN校の例のように
偏った分析結果しかもたらさない。
ただ今回は母集団そのものが対象なため、問題に当たらない、そういうことですよね?
つまりサンプリング方法に問題はないということと理解してもいいですか?(というかサンプルじゃなく母集団をみてるので)
これについてはちょっと反省でいろんな事を一気に書きすぎてしまって論点がぼやけてしまいました。反省。
ということで以下では”強く無視できる割り当て条件”などの処理群の不偏性についての話はしません。
まあ僕が書きたかったことは、回帰分析はバランスしているデータにしか使えない、という事だけでした。それは上で話したデータの性質(サンプリング方法)ではないんです。なら書くなよって話ですがwww
回帰分析だけでなく分散分析もt検定も正規分布が根っこにある検定はどれもそうなんですが、各水準のデータがバランスしていることが必要です。これはデータがどこから取られたという話でなく純粋に数学の話で
正規分布の再生性のことです。X~Normal(平均=0,分散=1) iidのとき(X1+X2+X3+X4+X5)/5 ~ Normal(0,1/5)
(X1+X2)/2 ~ Normal(0,1/2)
となりますね。この時前者と後者を比較してみた時、平均値は同じ0でも分散が違うのがわかるでしょうか?
そういうわけで分散分析の時(離散的変数の時)、なんらかの水準1と水準2でデータ数がバランスしてないと「正規分布が根っこにある」解析は出来ないんです。(係数の標準偏差の値が正しくなくなる)
そして今回は連続変数の場合ですがバランスと言う言葉は、ある説明変数の分布の形と範囲が共変量になっている
変数にわたって似ていることが条件です。例えば今回の例をあげると
ボーキが300~900までの値における弾薬の値は観察されてませんね、しかしその範囲で鋼材の値は観測されている。
つまり分布が他の共変量にわたって異なるということがわかる。
つまり割り当て条件ではなく、正規分布を仮定した分析で使っちゃダメなデータ、ということです。
ただウェルチのt検定のようにバランスしていない場合でも解析できる方法があるみたいなんですけど、、、回帰分析の場合は
知らないです。(とくに連続変数が入っている場合)もし知ってたら教えてください。