十五夜のブロマガ

データ解析できるかな(4):辞書化と女性向けタグの基礎解析

2013/08/15 22:35 投稿

  • タグ:
  • プログラミング
  • データマイニング
  • 腐女子
  • pixiv

お盆休みも終わりに近づいてきて、夏休みの自由研究に使える時間も少なくなってまいりました。日曜プログラミング楽しいのに残念です。

さて、前回の記事では一般ジャンルタグである「TIGER&BUNNY」で取得した約1万件のデータについてざっくり状況を見てみました。このままこのデータに対する解析を続行していいんですが、せっかく女性向けタグ「T&B女性向け」でも1万件取得していたので、同様の道具立てでこちらも解析してみることにしました。目視での名寄せに疲れてきたので、ここで、これまでの作業から得られた知見を辞書化して自動化することにしました。具体的には、

  1. ログデータ解析時に名寄せの辞書を使って類似タグは自動置換されるようにする。辞書は目視でやったものから手作業で抽出(泥臭い)。
  2. 1で自動変換された一次データをさらに目視で名寄せする補助のために、各タグに対してカテゴリとサブカテゴリを自動付与する。このための辞書もこれまでの目視データから手作業で抽出(やっぱり泥臭い)。
  3. 集計して上位タグをピックアップし、2で付与済みの既存タグ以外の新規タグに対して目視で名寄せをおこなう。この時点でカテゴリ、サブカテゴリも同じく目視で付与(とても泥臭い)。
  4. 名寄せの結果を再集計して表示、名寄せ辞書およびカテゴリ・サブカテゴリ辞書を更新する(がっつり手作業ですありがとうございました)。

まあ、辞書さえ作ってしまえば、ハッシュテーブルというか連想配列的な何か――Pythonだとcollectionsモジュールになるようですが、それを使えばさくっと置換作業はしてくれるのでだいぶ楽チンになります。コンピュータさまは目視でありがちなミスはしないし!ありがとう!コンピュータさま!

女性向けタグでの分布状況

そんな感じでいそいそと辞書を作って、前回までの作業を「T&B女性向け」直近1万件に対して適用してみました。ちなみに、「T&B女性向け」タグでの検索結果は、2013/08/11早朝時点で11997件あり、8/13早朝にデータ取得作業をおこなったので、同時点で13万件以上あった「TIGER&BUNNY」より網羅率が高くなっています。データの分布期間も長く、一番古いデータは2011年7月のものです。

上記作業1の既存辞書での自動名寄せをおこなった時点での、「T&B女性向け」タグ内でのタグの分布状況を表にしてみると以下のようになりました。

総タグ数は約7千個、総頻度累計は5万7千個、このうち頻度上位3つ(一番下から3つ)は、1位「T&B女性向け」(9989個、部分一致は除かれている)は検索タグなので最大になっています。これに加えて、2位「腐向け」(5109個)、3位「TIGER&BUNNY」(4624個)は意味的に1位に含有されるものにも関わらず(というかそれゆえに)量が多く、他のデータをマスクしてしまうので、これら3つは除外した中で、他のタグの分布状況を見てみました。

これを見てみると、「TIGER&BUNNY」で検索した結果の分布よりかなり緩やかに分散している様子が見て取れます。上位50位くらいで6割、580位を越えてようやく8割に達します。とりあえず手作業で名寄せするのは疲れるので、頻度7個以上のタグまでの約300個を今回は対象にすることとしました。このあたりまで見ると、大体75%くらい網羅できるので、ざっくり傾向を見るだけならなんとかなるでしょう。

カテゴリ自動付与と第二次名寄せ

ということで、前回の成果を用いて、既にカテゴリ分けされているタグについてはプログラムで自動でカテゴリ付与をおこないました。それにさらに目視で不足分を名寄せ+カテゴリ付与し、分布状況を集計しなおしたものが以下になります。

元々の75%を網羅していた312個のタグが、名寄せの結果283個まで減少しています。その状態で集計し、前回と同様上位3つのタグは除いた中での分布を眺めてみると、今度はかなりの集中が見られました。上位10位(上位3つを除くと7位)までで6割を越え、上位20位(上位3つを除くと17位)で8割を越えます。60位くらい見ると、軽く95%を越えますね。ということで、60位くらいまでのタグがどうなっているか見てみました。

当たり前かも知れませんが、上位のタグについては前回の結果と重複するものが多かったです。しかし、前回の結果と異なり、かなり上位でもちらほら腐女子向け特有のタグが見られました。まあ、ぶっちゃけちゃうとカップリング(男性同士の組合せ)の情報なんですけどね!ということで、ざっくり見ての雑感は以下となりました。

  1. 相変わらずおじさんとバニーちゃんの人気は高いが、一般向けタグで見られたほどの(2倍近い)差は見られない。ちょっとおじさんの方が人気があるかな?という程度。カップリングである兎虎と虎兎についても大きな違いがない。これはちょっと意外でした。
  2. R-18の全体に対する率は一般タグで6%だったのが9%程度に微増。前者は全体の8割程度から「TIGER&BUNNY」を除いたもの、後者は全体の75%程度から「T&B女性向け」「腐向け」「TIGER&BUNNY」を除いたもの、なので厳密な比較ではないことに注意。
  3. 一般向けで上位だった折紙(イワン)と空さん(キース)に加えて、牛さん(アントニオ・ロペス)とエビちゃん(ブラックタイガー)が、上位人気キャラにランクイン。一般にはその存在すら認識されていないであろう二次派生キャラであるエビちゃんがここまで上位に食い込んでいるのが興味深い。
  4. 3での人気キャラの状況を反映してそれらの組合せバリエーションが上位にランクインしている。ちなみに、「エビマヨ」という謎の用語は、ブラックタイガー→海老→エビ、おじさんはマヨネーズ好きから来た、ブラックタイガー×鏑木・T・虎徹のカップリングの意である。ちなみに「ウニ」はウロボロスバニーの意味で、悪役設定を付与されたバニーちゃん、つまりこれも二次派生キャラの一種である。
  5. 一般タグでは上位にコミケやコミックシティなどの大規模マルチジャンルの同人誌即売会がランクインしていたが、このタグではオンリーと呼ばれる特定ジャンル向けの小規模即売会が、多くランクインしてきている。「ザ★ヒーローショウ」「僕のヒーロー」「僕だけのおじさん」「俺のウサちゃん」「GONEXT!」などがそれである。
  6. タグによる作品評価はpixivで一般的に見られる風習で、よく使われるタグが存在するが、このジャンル特有の評価タグである「ココデオワルハズガナイノニ」がかなり上位にきているのが面白い。

全体として、非常にシステマティックに自らの萌を確実に手に入れようと最適化されたタグたちということが見て取れて、訓練された戦士であることだなぁ、という感想を持ちました。いや、他の人がどう感じたかは知りませんがw

なお、衣装特化である「サスペンダーおじ」や性格特化である「地味おじ」は、「鏑木・T・虎徹」にまとめるのは無理があるので独立して扱っています。これらは、「作品タイプ/嗜好」に入れるか迷うところなんですが、人物という側面が強いかなということで「登場人物/派生キャラ」として扱っています。こういうなだらかにどちらでもありうるようなタグというのはなかなか分類しにくいところがあります。ので、ある程度ポリシーを決めておく必要がありますね。

という感じで、ドメイン知識をごりごり使っての初期解析をざっくりやってみました。夏休みも終わってしまうので、この続きをやるかどうかはわかりませんが、またそのうち。ではでは~。


コメント

コメントはまだありません
コメントを書き込むにはログインしてください。

いまブロマガで人気の記事