oscillographの日記

エロと研究と日々の徒然

アメリカのポルノデータベースから全70611件のデータを取得しました。

おはようございます。夜のoscillographです。

今回は前回に引き続き、アダルトビデオのタイトル分析に関する記事です。

ですが日本のものはいったん置いといて、アメリカのアダルトビデオデータも取得しておこうと思いましたので、今回はそのデータ取得についての記事です。

今回データ取得元として選んだのはadult film databaseです。

こちらアメリカで１、２位を争う主流のアダルトビデオデータベースです。
で、今回もシコシコとデータを収集していきます。

以下のような手順を用いました。

HTMLの情報を取得しながら（アドレスの引数(→クエリパラメータ)で「type」を「title」に指定して、「page」に数値（N）を指定してやると全データの「(N-1)×100+1～N×100」件分を表示してくれる構造らしくそこらへんをうまく使いました。全709ページです。）
必要部分だけ正規表現で切り取って（HTML構造でうまく取り出せませんでした。あと、発売日が数値４ケタで固定されているようでしたので、そこもうまいこと処理しました。）
csv形式でファイルに保存

データ構造としては＜ID, 発売日, タイトル…＞のような形です。
ちなみにRubyを用いてプログラミングしてます。
いずれは画像情報とかも取得したいものですね。

という訳でちょっとした分析データもおいておこうと思います。
アメリカのエロビデオでよく使われる単語トップ20です。

f:id:oscillograph:20131125164833j:plain

アメリカのAVで「black」という単語が一番使われているというのは驚きですね。
また、「amature（素人）」が上位に来ているのはなんだか嬉しい感じがします。笑

細かい話ですが、ステミング処理とストップワード処理をしています。というかステミング処理にめちゃくちゃ時間がかかりました。（４時間くらい）

とりあえず、データがそろったのでこいつらを使って遊んでみようと思います。

あと、あまり記事と関係ない話ですがこの研究（？）に対してニコニコ学会への推薦をいただきました。

応募してみたので暇な人はそちらもご覧ください。（29日以降見れるそうです。後日別記事を載せます。）

形態素解析に基づくＡＶタイトルの特徴分析

こんばんは。夜の@oscillographです。

最近DMMアダルトがAPIを公開しました。
つまり、プログラムで直接データを取得できるようになったわけです。

ということで、今回はDMMアダルト（動画）の全タイトルを取得して
形態素解析を行うことによって日本のAVタイトルの特徴を分析しよう
ということになりました。

手順としては、

DMM（ビデオ）のメーカーページを「あ」～「ん」までHTMLで取得
メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存
テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得
タイトルについて形態素解析を行うことによって単語を集計
正規化（全体の数で割ることによって割合で表す）

という感じでやりました。

とりあえず、集計結果です。
上位３０位を抜き出してみました。

f:id:oscillograph:20131116224912j:plain

次に特徴的な語を抜き出すことによってさらに踏み込んでみようと思います。

f:id:oscillograph:20131116224615j:plain

これは時系列変化ですので、以下の特徴があることがわかりました。

「強姦モノ」はここ５年供給アップ
「人妻モノ」の供給は安定
「素人モノ」は全体でみると供給増加
「女子高生モノ」供給落ち込みが見える
「熟女モノ」はボチボチ

ということで、このようにタイトルの分析によって次に来そうなジャンルや廃れつつあるジャンルが分析できるのはすばらしいことですね。
（まあ、遊びなんでまったく信憑性ないんですけどね。笑）

次回はこれを統計解析することによってデータを視覚化し、より分かりやすいものにしていきたいと思います。
その次は機械学習によって自動的にAVタイトルへジャンルを付与するプログラムにいついて考察してみようと思います。

人類資金見てきました。

悪くない作品でした。

（そこまでプッシュするものでもありませんが…。）

まあ、つっこみどころは多いのですが国連ロケとか

とてつもない陰謀などは高まる～って感じです。

なんかやる気のでる映画でした。

このブログについて

プルさわ（@oscillograph）が140字で収まりきらないことを書き込みます。

ツイッターの拡張です。