コメントNo.29 (第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）):後藤和智の若者論と統計学っぽいブロマガ: 後藤和智の若者論と統計学っぽいチャンネル(後藤和智)

後藤和智(著者) のコメント

後藤和智
(著者)

こちらもこれ以上繰り返したくはないので最後に。

＞コメント23,24について
こちらのコマンドは全て回しました。しかし、ここで用いられているデータは全て説明変数が質的変量であり、こちらで用いているデータに応用することはできません。確かに因子（説明変数）が全て質的変量であればt検定、分散分析、そして線形モデルの結果は全て一致します。そのため3者の間には本質的な差はないと言えるでしょう。この点では私も早とちりだったと思います。

しかしこちらで用いているデータはほとんど量的変量であり、無理矢理でもカテゴリ化しない限り分散分析を行うことは不可能です。また忘れてはならないのは、今回用いているのは質的な変量ではなく量的な変量であるということです。今回の説明変数間の「欠け」の指摘が正しいとしても、量的な変数の場合は変数に調整を加えたり、外れ値を取り除いてより正確なモデルを作ることが可能だと考えます。今回の分析について現実的な解を提示するのであれば、次の改善点が提示できるはずです（あくまでも一例）。

1. 報酬が外れ値を示しているものを取り除く。
2. 報酬を対数や平方根に変換する。

量的な変数の場合、分布の実態に基づいて分布を修正することも可能であり、「欠け」を解消することも可能になります。量的な変量なら、それぞれの分布の実態に従って変換を行うことにより「欠け」を解消することも可能です。次回の分析ではそれも行う予定です。

従って、こちらのデータの「欠け」に対するshell mac様の批判に答えるなら、こちらでやるべき操作としてデータの分布に基づいて変数を変換するというのが現実的な解になります。

＞コメント25について
http://www.socialresearchmethods.net/kb/quasird.php こちらの記事は拝読しました。しかしこちらの説明をもとにこちらのデータの「欠け」を批判することはできません。というのもこちらのFigure2を今回の分析で考えるのであれば、釣り合いが取れているべきは被説明変数である「遠征時間（対数変換）」と、説明変数である各種獲得資源量ということになります。このFigure2で取り扱われているものは説明変数の間の「釣り合い」ではないでしょう。少なくともFigure1とFigure2を比較する限りでは、

Figure1: post = 切片 + 係数 * pre
Figure2: post = 切片 + 係数 * pre + 係数2 * 統制群ダミー

というモデルを想定して施策の効果の有無を比べるものであって、たとい今回用いているデータ間の「欠け」の指摘が正しいとしても、今回の分析とは相容れないものです。

またshell mac様は規準として「ボーキサイト300以上」というのを提示されていますが、その分け方の妥当性は疑わしいでしょう。というのもこれに該当する遠征は3つしかないので両者の間で極端に水準が合わないからです。水準を合わせるとしたら、統制群と比較群に該当するものを「ボーキサイト入手不可」「ボーキサイト入手可」にすると、前者は15、後者は14ですから水準として「合ってしまう」ことになります。

このような事態が起こる理由は、結局量的なそれぞれの説明変数の間で分布が異なるということに帰結します。だからボーキサイト300以上得られる遠征において弾薬が得られるものはないから回帰分析をすることはできない、というのは一概に言えないと思います。

（それぞれの変数で分布が違う）量的な変量に対して、片方を特定の値で輪切りにして統制群・比較群とするよりも、それぞれの変量について、データの分布に基づいて変換を行い、その上で考えた方が現実的だと思います。実際、例えば弾薬とボーキサイトの値をそれぞれ「1を足して自然対数変換」すれば、この「欠け」は解消できるのですから。

shell mac様の批判についてまとめると、コメント23,24についてはこちらで現実的な解を提示することが可能であり、次回は「改二」として反映させる予定です。しかし25については、こちらで使っているデータの前提を理解せず、前提の異なる条件を持ち出して批判しているものとして到底承服することはできません。

また25の批判については、コメント23,24での回答として示す予定である、変数を正規分布に近い形に変換するという行為を行えば自動的に消滅します。

今回の分析について、こちらで撤回するつもりはございません。再度申し上げますが、shell mac様の批判は前提の異なる複数の論点が交錯しているので、一部に対して現実的な解を提示することは可能でも、データの性質そのものを理解していない批判も少なくないことから、こちらの分析を取り下げるには値しないからです。

私からは以上です。こちらとしてももうこれ以上続けたくはないので返信は行わないで構いません。

No.29 130ヶ月前

ポスト

このコメントは以下の記事についています

第45回：【科学・統計】「艦これ」新遠征の実装による遠征効率の再評価（2月26日版）

投稿日時:
2014/03/17 23:50

コメント:
29

すべてのコメント

ブロマガポータルTOP

フォロー

後藤和智の若者論と統計学っぽいチャンネル

このチャンネルの詳細