エロと研究と日々の徒然

アメリカのポルノデータベースから全70611件のデータを取得しました。

おはようございます。夜のoscillographです。

今回は前回に引き続き、アダルトビデオのタイトル分析に関する記事です。

 

ですが日本のものはいったん置いといて、アメリカのアダルトビデオデータも取得しておこうと思いましたので、今回はそのデータ取得についての記事です。

今回データ取得元として選んだのはadult film databaseです。

こちらアメリカで1、2位を争う主流のアダルトビデオデータベースです。
で、今回もシコシコとデータを収集していきます。

以下のような手順を用いました。

  1. HTMLの情報を取得しながら(アドレスの引数(→クエリパラメータ)で「type」を「title」に指定して、「page」に数値(N)を指定してやると全データの「(N-1)×100+1~N×100」件分を表示してくれる構造らしくそこらへんをうまく使いました。全709ページです。)
  2. 必要部分だけ正規表現で切り取って(HTML構造でうまく取り出せませんでした。あと、発売日が数値4ケタで固定されているようでしたので、そこもうまいこと処理しました。)
  3. csv形式でファイルに保存

データ構造としては<ID, 発売日, タイトル…>のような形です。
ちなみにRubyを用いてプログラミングしてます。
いずれは画像情報とかも取得したいものですね。

という訳でちょっとした分析データもおいておこうと思います。
アメリカのエロビデオでよく使われる単語トップ20です。

 

f:id:oscillograph:20131125164833j:plain

 

アメリカのAVで「black」という単語が一番使われているというのは驚きですね。
また、「amature(素人)」が上位に来ているのはなんだか嬉しい感じがします。笑

 

細かい話ですが、ステミング処理とストップワード処理をしています。というかステミング処理にめちゃくちゃ時間がかかりました。(4時間くらい)

とりあえず、データがそろったのでこいつらを使って遊んでみようと思います。

 

あと、あまり記事と関係ない話ですがこの研究(?)に対してニコニコ学会への推薦をいただきました

応募してみたので暇な人はそちらもご覧ください。(29日以降見れるそうです。後日別記事を載せます。)