エロと研究と日々の徒然

AVタイトルの特徴分析 その2

前回の記事はこちら(形態素解析に基づくAVタイトルの特徴分析


ニコニコ学会から「内容的に全年齢対象で発表は無理」と言われてしまったので
こちらで結果の報告をさせていただきたいと思います。

 

特徴的な語に関する経年変化

まず、単純な集計結果をもとに特徴のある単語を3パターンに分類し
それぞれについて見ていこうと思います。

 

  1. 年々割合が上がっている単語(供給Up)

    f:id:oscillograph:20131213145822j:plain

    どうですか、この供給量アップ。
    「○出し」はいったん割合が落ち込みましたが2010年を境に徐々に回復しつつあります。

  2. 年々割合が下がっている単語(供給Down)

    f:id:oscillograph:20131213145959j:plain


    私は「女子高生」好きなんですけどね。

  3. 年々割合が上がっても下がってもいない単語(安定供給)

    f:id:oscillograph:20131213150036j:plain


    「素人」についての予想ですが、「素人が来る!」と考えて2011年に多く出したのが失敗して年々下がっていると考えられます。
    人妻、熟女は比較的安定していますね。

 

主成分分析による各年の特徴

次に統計でよく使われる「主成分分析(※)」という方法を用いて単語と年の関係を推測していきます。
すべての年を通して最もよく使われる上位30語を用いました。
統計ソフトを用いてゴニョゴニョすると以下の図が作成されるのでこれを元に考察を進めます。

f:id:oscillograph:20131213151427p:plain

・縦軸(PC2)
おおざっぱに下から上へ
「素人」→「女子高生」→「姉さん」→「五十路」→「人妻」
と並んでいるので、縦軸は年齢軸(下:低い、上:高い)と捉えることができそうです。
(途中で「娘」とか入っているけれど、細かいことは気にしない。)

・横軸(PC1)
こちらはおおざっぱに左から右への
「撮[盗]る,オ○ニー,みる」→「(中)○し,H,チ○ポ」→「犯す」
という並びを考えると、横軸は交わりの激しさ(左:弱い、右:強い)と捉えることができます。
(あくまで、おおざっぱな見方です。)

 

ということで、縦軸・横軸の解釈を元に各年のAVの内容を特徴づけてみます。

f:id:oscillograph:20131213160658j:plain


2009年:高年齢と優しく交わる(または交わらない)
2010年:低年齢と少し激しめに交わる
2011年:若い子と普通に交わる
2012,2013年:高年齢と激しく交わる

 

という感じです。もちろん現実とうまくがっちしているか分かりません。
また、データの質があまり良くないため、このような結果になったとも考えられます。というかたぶんそうです。

 

もっと細かく分析すると現実をピタリと言い当てる結果が得られるかもしれませんが、(疲れちゃったので)そこまではしません。笑

 

このように現実をうまく表しているかどうかは「神のみぞ知る」という感じですが、データをもとにある程度論理的にその時々の状況を推測することができます。
今回は内容がアレですが、データ分析の大まかな流れと、それらが生(性)活で非常に役立つということを知っていただければ幸いです。


最後まで、駄文を読んでくださってありがとうございました。

 

※補足(主成分分析とは)

主成分分析とは簡単に言うと多次元の情報を、(情報の損失をできるだけ抑えながら)低次元に落とし込むものです。

今回は単語ひとつひとつに対して「2009~2013年の頻度(割合)情報→5年分」が含まれているのでそれをもとに、ひとつの単語を5次元空間の1点にプロットすることができます。
5次元の情報を直観で見る(?)ことはできないので、それを2次元の情報に落とし込んで可視化して見やすくしようということがこの手法の肝です。
また、縦横の軸については単語の並びをもとに分析者が「何を表している軸か」ということを推定します。
これらの背景をもとに上記の分析は行われています。
ホントはどの程度情報損失があるか、などいろいろ言わなければならないのですが、そこまでやってしまうと「ガチ」な人がでてきそうなのでここらへんで留めておきます。
ーーー
主成分分析はR(という統計用のソフト)のprcomp関数で算出しています。

 

 

※本記事は真面目なジョーク記事です。