形態素解析に基づくAVタイトルの特徴分析
こんばんは。夜の@oscillographです。
最近DMMアダルトがAPIを公開しました。
つまり、プログラムで直接データを取得できるようになったわけです。
ということで、今回はDMMアダルト(動画)の全タイトルを取得して
形態素解析を行うことによって日本のAVタイトルの特徴を分析しよう
ということになりました。
手順としては、
- DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得
- メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存
- テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得
- タイトルについて形態素解析を行うことによって単語を集計
- 正規化(全体の数で割ることによって割合で表す)
という感じでやりました。
とりあえず、集計結果です。
上位30位を抜き出してみました。
次に特徴的な語を抜き出すことによってさらに踏み込んでみようと思います。
これは時系列変化ですので、以下の特徴があることがわかりました。
- 「強姦モノ」はここ5年供給アップ
- 「人妻モノ」の供給は安定
- 「素人モノ」は全体でみると供給増加
- 「女子高生モノ」供給落ち込みが見える
- 「熟女モノ」はボチボチ
ということで、このようにタイトルの分析によって次に来そうなジャンルや廃れつつあるジャンルが分析できるのはすばらしいことですね。
(まあ、遊びなんでまったく信憑性ないんですけどね。笑)
次回はこれを統計解析することによってデータを視覚化し、より分かりやすいものにしていきたいと思います。
その次は機械学習によって自動的にAVタイトルへジャンルを付与するプログラムにいついて考察してみようと思います。