アメリカのポルノデータベースから全70611件のデータを取得しました。
おはようございます。夜のoscillographです。
今回は前回に引き続き、アダルトビデオのタイトル分析に関する記事です。
ですが日本のものはいったん置いといて、アメリカのアダルトビデオデータも取得しておこうと思いましたので、今回はそのデータ取得についての記事です。
今回データ取得元として選んだのはadult film databaseです。
こちらアメリカで1、2位を争う主流のアダルトビデオデータベースです。
で、今回もシコシコとデータを収集していきます。
以下のような手順を用いました。
- HTMLの情報を取得しながら(アドレスの引数(→クエリパラメータ)で「type」を「title」に指定して、「page」に数値(N)を指定してやると全データの「(N-1)×100+1~N×100」件分を表示してくれる構造らしくそこらへんをうまく使いました。全709ページです。)
- 必要部分だけ正規表現で切り取って(HTML構造でうまく取り出せませんでした。あと、発売日が数値4ケタで固定されているようでしたので、そこもうまいこと処理しました。)
- csv形式でファイルに保存
データ構造としては<ID, 発売日, タイトル…>のような形です。
ちなみにRubyを用いてプログラミングしてます。
いずれは画像情報とかも取得したいものですね。
という訳でちょっとした分析データもおいておこうと思います。
アメリカのエロビデオでよく使われる単語トップ20です。
アメリカのAVで「black」という単語が一番使われているというのは驚きですね。
また、「amature(素人)」が上位に来ているのはなんだか嬉しい感じがします。笑
細かい話ですが、ステミング処理とストップワード処理をしています。というかステミング処理にめちゃくちゃ時間がかかりました。(4時間くらい)
とりあえず、データがそろったのでこいつらを使って遊んでみようと思います。
あと、あまり記事と関係ない話ですがこの研究(?)に対してニコニコ学会への推薦をいただきました。
応募してみたので暇な人はそちらもご覧ください。(29日以降見れるそうです。後日別記事を載せます。)