後藤和智の若者論と統計学っぽいブロマガ

第43回:【政策/科学・統計】東京都知事選「論点の論点」――「ポリタス」寄稿記事を分析してみた

2014/02/26 07:00 投稿

  • タグ:
  • 東京都知事選挙
  • 都知事選
  • ポリタス
  • テキストマイニング
  • KH_Coder
後藤和智の若者論と統計学っぽいブロマガ
第43回:【政策/科学・統計】東京都知事選「論点の論点」――「ポリタス」寄稿記事を分析してみた

今回は、2014年2月9日に行われた東京都知事選挙に先立って、津田大介氏が主宰する政治系ウェブサイト「ポリタス」(http://politas.jp/)に寄稿された記事89本を分析し、このサイトにおいて何が論じられ、そしてサイトがどのような問題点を抱えていたのかということを統計学の視点から明らかにしてみたいと思います。

このサイトには私も「福祉/労働/青少年、そして「選挙」に対する姿勢について」(http://politas.jp/articles/71)という記事を寄稿しており、またメールマガジン『津田大介の「メディアの現場」』でも配信されているのですが、見た感じあまり人気に上ることはなく、ツイッターでの言及数は150程度、フェイスブックでの「いいね!」数も30程度にとどまりました。それは他の政策色の強い記事でも同様でした。逆に人気を集めていたのが、「正直この選挙戦にどういう意義があるのかわからない」という記事や、「リベラル」とか「保守」とかのあり方が問われているとかいう記事、あとは原発関連ばかり感想が流れてきて、いかに私がこのサイトの読者層に「必要とされていないか」がよく分かった…とか言うとかなり乱暴ですね。まあそういう感情を抱えていたということを理解していただければ(苦笑)。

ただ私は統計学で同人誌を書いていることもあり、ここで展開されていた「論点」について統計解析を使って分析してみようという欲望も、都知事選以前からありました。テキストマイニングという、テキストデータを統計データとして使用する手法があるので、使わないわけにはいかんでしょ、というわけです。またポリタス記事のテキストマイニングについて検討している際に、テキストマイニングにおいて強力なツールがあることを知ったので、それの紹介も兼ねつつ、分析してみようと思います。

1. 導入と記事のクラスター分け
分析に用いるソフトは、フリーのテキストマイニングソフト「KH Coder」です。これは、立命館大学の樋口耕一によって開発されたソフトで、単語の解析はもとより、フリーの統計ソフト「R」のシステムを利用したデータの可視化なども行うことができて、ビジュアル的にも面白いものを作ることができます。

KH Coder http://khc.sourceforge.net/
解説書:『社会調査のための計量テキスト分析――内容分析の継承と発展を目指して』(ナカニシヤ出版) http://www.amazon.co.jp/dp/4779508037/

詳細については上記サイト・書籍を参照してほしいのですが、Rなどでは難しかったデータのとりまとめや可視化などが、このソフトを使えば簡単に行うことができます。もちろん、集計や描画を行う際には、適切な条件のもとで行っているかを検討する必要があります。その点を気をつけていれば、テキストデータの分析や可視化はかなり楽しいものになると思います。

またKH Coderでは「こと」「もの」「する」などといった、あまり意味をなさない単語も簡単に取り除くことが可能です。これらの単語は「名詞B」「動詞B」などにカテゴライズされ、分析においてこれらを選択しなければ、分析から除外することが可能です。

今回は、このKH Coder、そしてフリーの統計ソフト「R」を使って、「ポリタス」の記事89本の分析を行います。単語の解析にあたり、形態素解析にはMeCab0.996を用いました。また分析にあたって、強制抽出する単語に「舛添」「細川」「宇都宮」「田母神」「家入」「護煕」「一真」「脱原発」を使いました。「脱原発」については、都知事選の争点として原発ないし「脱原発」を挙げた候補者が存在し、またポリタスの記事でもそれを述べた記事もいくつか見られたので、強制抽出単語として使用することとしました。また、候補者については、主要候補の名字を強制抽出単語として登録し、また名前でも検索が難しいもの(ここでは「護煕」「一真」)も強制抽出単語として登録しました。また、引用文の後の「XX月YY日付ZZ新聞」などの出典を示すものや、「AR(拡張現実)」というものにおける「(拡張現実)」といった具合に、註釈的な意味合いの強いものは手動で削除しております。

また閲覧数を示すデータとして、ツイッターでの言及数(TW)、フェイスブックでの「いいね!」数(FB)、そしてはてなブックマーク(HTB)の数を使用しました。データは都知事選から1週間経ったあとの2月14日0時頃に確認したものを使いました。これは、新しい記事が7日まで配信されており、最後のほうに配信された記事は閲覧数などで不利な環境に置かれるのではないかと考え、都知事選も終わり、閲覧数がある程度収束したのではないかと思われる時期に取った方が正確な分析が行えるだろうと判断したためです。また、それ自体の意味の薄い、「名詞B」「名詞C」「動詞B」「形容詞B」「副詞B」「否定助動詞」は、集計は行いましたが、各種分析では除外しています。

表1 使用した記事のパラメータ
e52cc81d7b4dcb7f275d3a0631f1f77b66985958

データの分布ですが、単語数は概ね正規分布に従っていると見てもいいと思います。しかし、ツイッターでの言及数、フェイスブックでの「いいね!」数、そしてはてなブックマークの数は、極端に大きいものが一部である一方で、あまり伸びなかったものも少なくありません。そのため、分布も正規分布と言うよりは対数正規分布に近くなっています。

表2 各記事のパラメータ
c0bcfd9f5b19bfe02d50fdb76e49d6c5804d0244

2. 記事のクラスター分け
次に、それぞれの記事を、クラスター分析を用いてクラスターに分けます。分析には、全体での出現数が15以上となる530単語を用い、単語の出現頻度は文章ごとに標準化を行いました。標準化を行うのは、行わない場合はデータの内容ではなく、単純に単語数の過多によってクラスターが分けられてしまうからです(例えば、まったく違う内容を扱っているはずの私と開沼博の論考が隣り合ったりなど)。併合水準を勘案し、クラスターは5つに分けました。また、クラスター5以外は、それぞれのクラスターの中において、共起ネットワークという手法を使って、特徴語を抽出しました。

表3 クラスター分け
789708af6a62e9bd67383ab4628611b632977b14
執筆者や単語の特徴から、これらのクラスターは次のように見ることができるでしょう。
第1クラスター(記事数):都知事選の大局的な背景や意義を扱ったもの
第2クラスター:原発問題を扱ったもの
第3クラスター:家入一真に親和的なもの
第4クラスター:防災やオリンピックなど、都市としての東京に固有の政策を扱ったもの
第5クラスター:教育や福祉などを扱ったもの

次に、ツイッター言及数などのパラメータを、クラスター間と掲載号(数をできるだけそろえるため、15号まで3号ごと、16号は独立カテゴリとした)で検討を行いましたが、元のデータでは、ばらつきが大きく有意な差を見ることはできませんでした。また対数変換した値でも、いずれも有意な差とはなりませんでした。ただ、3つのパラメータについて文字数と相関係数を取ったところ、元のデータではツイッター言及数以外、また対数変換した場合は全てで有意な正の相関となりました(なお図4b,cの単語数とはてなブックマーク数(対数変換)のプロットについては、はてブ数0のもの(対数をとるとマイナス無限大になる)は1(対数をとると0)として扱っています)。

表4 クラスターごとのパラメータの比較
de39437a6bf8f3e7af6b5472932a27ef3899e382

3. まとめ
今回は「ポリタス」都知事選特集の記事にテキストマイニングを行い、その傾向について検討を行いました。どういう記事が人気を集めたかについてはこのデータでは確固たるものを得ることができませんでしたが、少なくともポリタスという場でどういう議論がなされたかということはいくつか確認できたかと思います。

この都知事選では、原発ないし「脱原発」が争点だと言われて、それについて思想的な考察を行うような書き手や、あるいは直前になって家入一真が唐突に出馬を表明し、それが若い世代が政治などに関心を持つようになると論じた書き手が多く、逆に政策的な話題はこのポリタスにおいても後退していたのではないかと思わざるを得ません。実際、都市や防災、福祉や教育や労働、青少年政策について言及のあった書き手は数える程しかなく、その多くが第5クラスターに所属していました。

特に若い世代に選挙や政治に関心を持ってもらうのが主目的なら、いくつかのトピックに関して深く論じることができるような執筆者を立て(今回の場合に寄り添うと、防災が永松伸吾、クラブ規制が磯部涼、福祉が大西連、青少年政策が私か小倉秀夫、などと言った具合に)、そのトピックについて採り上げる、というやり方が良かったかもしれません。もちろん各候補者に寄り添った思想的なことを採り上げてもいいでしょうが、あくまでも少数にとどめておくべきでしたし、ましてや東浩紀や赤木智弘のような関心を持ってもらうという点であまり意味をなさないような論考はリジェクトする必要もあったでしょう。

私がポリタス論考の中で懸念していたように、都知事選を経由して「意識が高くなった」人たちが、身近な政策のことについて継続的に調べたりしようとする気になったというのはあまり聞かれません。せいぜい「意識の高い」人たちの中で「今度こそ若者の手に政治が取り戻せる!」という思い込みが加熱して、そしてあっさりと冷めたような感じではないかと思います。

おまけ 単語の自己組織化マップ
出現数40以上145単語
dcfff090400777dc7c3e55d72e843b58bd098b76

おまけ2 候補者の名前の関連語に対する共起ネットワーク
d08caa3f33a9ee586d0461863b2b202bb69bee10

参考文献
樋口耕一[2004]「テキスト型データの計量的分析――2つのアプローチの峻別と統合」、『理論と方法』第19号1巻、pp.101-115、数理社会学会、2004年
樋口耕一[2013]『社会調査のための計量テキスト分析――内容分析の継承と発展を目指して』ナカニシヤ出版、2013年

後藤和智[2013]『統計同人誌をつくろう!――調べて、分析して、書きたい人のために』後藤和智事務所OffLine、2013年(コミックマーケット85)
後藤和智[2013]『改訂増補版 紅魔館の統計学なティータイム――市民のための統計学Special』後藤和智事務所OffLine、2013年(コミックマーケット85)
後藤和智[2014]『提督のための統計学――艦隊決戦統計解析論序説』後藤和智事務所OffLine、2014年(海ゆかば2)

【今後の掲載予定:定期コンテンツ(原則として毎月5,15,25日更新予定)】
第44回:【政策】センター試験国語で若者の言語能力は測れません!(2014年3月5日配信予定/「東方紅楼夢9.5 遠野物語」のサークルペーパーとして配信します。)
第45回:【思潮】「悪意」の源泉はどこにあるのか?――森達也『クラウド増殖する悪意』を批判する(2014年3月16日配信予定/「EVENT JACK 気仙沼22」のサークルペーパーとして配信します。)
第46回:未定(2014年3月25日配信予定)

【近況】
・「コミックマーケット85」新刊の『統計同人誌をつくろう!――調べて、分析して、書きたい人のために』『改訂増補版 紅魔館の統計学なティータイム――市民のための統計学Special2』が、メロンブックス・とらのあな・COMIC ZINにて委託販売中です。詳細は各同人誌の情報ページをご覧ください。
『統計同人誌をつくろう!』情報ページ:http://ameblo.jp/kazutomogoto/entry-11717450615.html
『改訂増補版 紅魔館の統計学なティータイム』情報ページ:http://ameblo.jp/kazutomogoto/entry-11717449750.html

・「海ゆかば2」新刊の『提督のための統計学――艦隊決戦統計解析論序説』がメロンブックスにて委託販売中です。
情報ページ:http://ameblo.jp/kazutomogoto/entry-11755408226.html
サンプル(pixiv):http://www.pixiv.net/member_illust.php?mode=medium&illust_id=41109949
通販ページ:http://shop.melonbooks.co.jp/shop/detail/212001070288

・「東方紅楼夢9.5 遠野物語」にサークル参加予定です。
開催日:2014年3月2日(日)
開催場所:あえりあ遠野(岩手県遠野市)
アクセス:JR釜石線「遠野」駅から徒歩10分程度/釜石自動車道「宮守」インターチェンジから車で30分程度
スペース:「仙」ブロック20
※JR釜石線「遠野」駅は、東北新幹線「新花巻」駅から快速列車で40分程度、普通列車で1時間程度。

・「EVENT JACK 気仙沼22」にサークル参加予定です。
開催日:2014年3月16日(日)
開催場所:気仙沼市民会館(宮城県気仙沼市)
アクセス:JR石巻線・大船渡線「気仙沼」駅より徒歩20分程度/東北自動車道「一関」インターチェンジより車で1時間程度
スペース:未定

・「幻想郷フォーラム2014」(東方Project情報・評論系オンリーイベント)にサークル参加予定です。
開催日:2014年3月30日(日)
開催場所:名古屋市国際展示場(ポートメッセなごや)(愛知県名古屋市港区)
アクセス:名古屋臨海高速鉄道あおなみ線「金城ふ頭」駅より徒歩5分程度/伊勢湾岸自動車道「名港中央」インターチェンジより車で5分程度
スペース:デスク参加07

・「新潟東方祭14」にサークル参加予定です。
開催日:2014年4月13日(日)
開催場所:朱鷺メッセ(新潟県新潟市中央区)
アクセス:JR各線「新潟」駅または新潟交通バス「万代シテイバスセンター」から「佐渡汽船」行きバス「朱鷺メッセ」下車すぐ/「新潟」駅から徒歩20分程度
スペース:未定

・「第十八回文学フリマ」にサークル参加予定です。
開催日:2014年5月5日(月祝)
開催場所:東京流通センター(東京都港区)
アクセス:東京モノレール「流通センター」駅下車すぐ
スペース:未定

・日本図書センターより5年ぶりの商業新刊『「あいつらは自分たちとは違う」という病――不毛な「世代論」からの脱却』が刊行されました。内容としては戦後の若者論の歴史をたどるものとなります。
Amazon:http://www.amazon.co.jp/dp/4284503421/
楽天ブックス:http://books.rakuten.co.jp/rb/12468953/

(2014年2月25日)

奥付
後藤和智の若者論と統計学っぽいブロマガ・第43回:【政策/科学・統計】東京都知事選「論点の論点」――「ポリタス」寄稿記事を分析してみた
著者:後藤 和智(Goto, Kazutomo)
発行者:後藤和智事務所OffLine
発行日:2014(平成26)年2月26日
連絡先:kgoto1984@nifty.com
チャンネルURL:http://ch.nicovideo.jp/channel/kazugoto
著者ウェブサイト:http://www45.atwiki.jp/kazugoto/

Twitter:@kazugoto
Facebook…
個人:http://www.facebook.com/kazutomo.goto.5
サークル:http://www.facebook.com/kazugotooffice

コメント

コメントはまだありません
コメントを書き込むにはログインしてください。

いまブロマガで人気の記事

後藤和智の若者論と統計学っぽいチャンネル

後藤和智の若者論と統計学っぽいチャンネル

このチャンネルの詳細