エロと研究と日々の徒然

XVideosコミュニティーで用いられるタグの分析(共起ネットワークグラフを用いて)

こんばんは。夜のOscillograohです。

本日はXVideos VIDEO DATABASEのデータを用いてXVideosコミュニティーの分析を行ってみました。

 

XVideos VIDEO DATABASEとは??

これは過去にXvideosに投稿された動画データをもとに、Xvideosの動画をWebサイトへ埋め込むためのものです。
公式ページには

It contains about 130,000 videos with video URL, thumb URL, tags, duration, title, and embed code.

とあります。今回は動画に付随している「タグ」に注目していこうと思います。

ちなみに、CSV形式(主にエクセルなどで開くファイル)なのに1.64GBありました。重すぎる上に普通のテキストエディターだとメモリ不足で開けませんでした…。

 

今回のブログ記事で明らかにすること

ということで、上記のデータを用いて

  1. XVideosコミュニティーに住む人々はどんなジャンルが好きなのか
  2. エロ動画において、関係の強い単語はどんなものがあるのか(共起の計測)
  3. よく使われる単語間の関係にはどのような構造が潜んでいるのか

を調べてみようと思います。

 

 タグの集計結果

プログラムを組んでせっせと集計しました。

全タグ数:133257件

のうち、上位20位を図にまとめると以下のようになります。

f:id:oscillograph:20140325032559j:plain

 

上から順に

フ○ラ、露骨、素人、10代、brunette(ダークブラウン色の髪の女性)、ブロンド、ア○ル、おま○こ、ぱいおつ、口内射精、お口で、ゲイ、尻…

などとつながりあます。

一番下のinterracaial(異人種で)なんかもXvideos独特って感じですね。

Xvideosの人々(男ならだれでも?)はお口でしてもらうのが好きなようですね。

他にも素人が良いというのは世界共通のようです。

 驚くべきことに「ゲイ」が上位20に含まれています。
「gaysex(213527件:23位)」「gayporn(件:39位)」は別に存在しているのでそれを考えると、ゲイビデオもかなり市民権を得ていると言えるでしょう。

また、「lesbian(155208件:38位)」「japanese(119447件:53位)」も特筆すべき点だと思います。

 

よく使われる語の組み合わせ

同じビデオに含まれる単語の組み合わせ(いわゆる共起)を調べてみました。
こちらもせっせとプログラムを組んで集計したところ、以下のようになりました。

f:id:oscillograph:20140325061031j:plain

色々分かりますが、とりあえず 

露骨なフ○ラが圧倒的に人気

ということが言えます。

他には10代とエロ要素が組み合わさっていたり、ハードコアも結び付きが強そうです。

 

ネットワーク分析

これらの共起情報をもとにグラフを描いてみると(Rのigraph, Kamada-Kawaiモデル使用)以下のようになりました。

f:id:oscillograph:20140325065201j:plain

 

 上のネットワーク図をみてください。

これは共起語をとあるモデルを用いてネットワーク図にしたものです。
特筆すべきは右上のゲイに関するタグです。
やはり普通の部分からは大きくはずれたところに位置しているようです。

次にハブ(ネットワークの中心)を見てください。
ハブはきれいにハードコアとフ○ラになっています。

特にフ○ラに注目すると、

  • Xvideosの動画(というかエロビデオ全般に言えそう)にとってフ○ラは欠かすことのできない重要な要素であること
  • フ○ラを通じて様々なエロ要素がからみあっていること

が分かります。

分かりやすくたとえますが、日常生活で友達が多い奴っていますよね。
仮にA君としておきましょう。その友達と付き合っていると新しい友達ができたり、今まで会ったことのない人にあったりすることができます。
(Xvideosコミュニティーというかエロ動画全般においては)
そのA君が「フ○ラ」なのです。

 

まとめ

という訳でイントロのおさらいです。

  1. XVideosコミュニティーに住む人々はどんなジャンルが好きなのか
    フ○ラ、素人、10代、ぱいおつ、ゲイ などが人気

  2. エロ動画において、関係の強い単語はどんなものがあるのか(共起の計測)
    「ハードコア」と「フ○ラ」が圧倒的、「10代」と「ハードコア」「フ○ラ」「素人」などもよく組み合わされている

  3. よく使われる単語間の関係にはどのような構造が潜んでいるのか
    ゲイ関連は独特なポジションを占めていることと、「フ○ラ」がハブとなっている

以上でXvideosの解析を終わりにします。
あ、でも今後もうちょっと分析するかもしれません。

 

おわりに

くだらないことに時間を割きすぎてしまいました。
反省していますが、日ごろの勉強の復習になったのでまあいいかなって感じです。

それから、調べたらこんな記事

satomacoto: XVIDEOS' Entire Video Databaseのタグの頻度と共起

も見つかりました。同じようなことをやってます。

内容をあんまり鵜呑みにしないようにお願いします。ガチなつっこみが怖いです。

アドバイスはたくさんください。あれをやれ、ここをこうした方がいいなどの意見は喜んで承ります。

最後まで駄文を読んでいただきありがとうございました。

 

※この記事は真面目なジョーク記事です。

流行ラノベのタイトルは本当に長いのか検証してみた(ついでに2050年時点のタイトルの長さを予測してみた)

最近ラノベのタイトルが長く、複雑になっているような感じがします。

ということで、流行っている(いた)ラノベの文字数の増減を調査しました。

 

データ:

このライトノベルがすごい! - Wikipedia

から、2005~2014年まで

 

調査方法:
年ごとに文字数の平均を算出。
(「シリーズ」という文字列は集計の際に削除)

 

結果:

f:id:oscillograph:20140125222752j:plain

 

2008年に一回落ち込みを見せましたが、グラフのように年々上昇し続けています

Excelを用いて直線回帰を行うと、以下のようになります。

f:id:oscillograph:20140125233018j:plain

このままいくと将来的に人気ラノベの平均文字数は30文字を超えてしまうかもしれません。(2050年問題)

 

ちなみに30字は
「流行ラノベのタイトルは本当に長いのか検証してみたらかなり長かった」
くらいの長さです。
結構長いですね。

まあ、こうなることはないと思いますが、年ラノベの文字数が増えていっているというのはゆるぎない事実のようですね。

 

※補足

単回帰はExcelのデータ分析を使用。一応変化分に関する単回帰を行いました。
傾きの係数に対するP値は0.5%水準で有意にゼロと異なり、決定係数も0.69とそこそこだったので、あながち年々の文字数増加はバカにできないかもしれないですね…。

ダイエットしましょう!(デブのデメリット編)

正月太りしました。

年明けに会った人のうち数人に「太った?」と言われたのでデブってきたと思います。

 

さて、本気で痩せるためにはどうすれば良いでしょうか。
ガチで目的を遂行するために必要なことは以下の3つです。

  • 目的を遂行するというゆるぎない意思
  • 無理のない計画
  • 目的達成後の方針

ここで最も重要なのは、1番目のゆるぎない意思です。
ということで、今回はダイエットする!という確固たる意志を築くために何をすればよいかを考えていきたいと思います。

 

ゆるぎない意思を作るためには

さて、ここで人が動くときを考えてみましょう。

人が動く理由は(よく言われていますが)以下の2つです。

 

人が動く2つの動機

  1. 嫌だ!(苦痛等があるので、そこから避けたい。)
  2. 最高!(良いことがあるので、そちらへ向かいたい。)

 

この2点をはっきりさせることが重要です。
ということで、ダイエットをしないことによって生じる悪いことと、ダイエットをすることによって生まれる良いことを明確にしておこうと思います。

 

以下にダイエットをしないことによって生じる悪いことをまとめていこうと思います。

簡単に言うと、デブであることのデメリットです。

いくつかのトピックに分けてみたいと思います。

 

デブだとこんなに苦労する!悩む!

ということで、デブで苦労した事、悩んだ事を語る愚痴スレで書き込みをピックアップしてみました。

  • デブだと仕事がキツイし、やる気が正直出ない。顔立ちも悪くなるし。 
  • スタイルも悪い。老けて見られる。怖いね。 
  • とにかく性格ゆがんでったわ。
  • 異性にグンとモテない、(デブは)モテない大原因になる。
  • 息苦しい。 
  • 告白した相手に一生恨まれる。 
  • 気持ちがどんどん沈んでいく。 
  • 腹肉が邪魔で屈んで仕事をしていると呼吸困難になる 
  • おしゃれの幅がせまい。
  • 見苦しいから居づらい。 
  • デブて食費がかかりそうなイメージがある。デブと結婚したらエンゲル係数が家計を破綻する危険性大。
  • デブはやっぱモテないよ。
  • 中学生に気持ち悪いと言われたデブです。

良い精神状態を保つために痩せましょう。

 

健康を損なう!

 厚生労働省肥満の何がこわいの?より

日本人の死因の第1位はがん、第2位は脳卒中脳梗塞や脳出血)、第3位は心臓病(心筋梗塞狭心症)です。2位と3位はどちらも動脈硬化や高血圧、脂質異常症などが大きな危険因子ですが、これらには食事や肥満が大きく関わっているんですよ。それから、日本人の間で急激に増えている糖尿病、高尿酸血症や痛風、脂肪肝、 膵炎なども、肥満との関わりが深い病気です。

(中略)

肥満している人は、体中あちこちに余分な脂肪がついています。たとえば、のども脂肪で狭くなっています。起きているときはいいのですが、眠って筋肉がゆるんでいると空気の通りが悪くなります。それで、眠っている間に息をしない時間が何度もある「睡眠時無呼吸症候群」という症状になることがあり、下手をすると命にも関わります。

(中略)

肥満しても骨の太さはほとんど変わりませんから、体重が骨や関節によけいな負担をかけます。それが、腰痛や関節痛の原因となることも多いんですよ。

まとめると、

  • 肥満になると、死にやすくなる
  • 肥満になると、喉に脂肪がついて寝ている間の呼吸が止まる
  • 肥満になると、身体を痛める

となります。おー怖い。

 

 記事が長くなってしまったので、続き(スリムボディーのメリット)は次回。

研究活動を始めて自分の身に起こったいくつかの変化

おけましておめでとうございます。今年もよろしくお願いします。

さて、今回のテーマは「研究ばかりしているとつまらない人間になってしまうのではないか」というものです。

 

昨年は研究論文の執筆を初めて行いました。それを通して自分がどのように変わってしまったかを箇条書きにしてまとめていきたいと思います。

 

その1 物事の”定義”にこだわるようになった

友人と会話をしているときに意味に幅のある単語を使われたときに、
(それ、どういう定義で使ってるの?)
と思うようになりました。
もちろん、思うだけで指摘はしません。


また、書籍などを読んでいるときに、専門用語を定義せずになんとなく使用しているのを見るとなんだか不安になります

以前はそんなことまったくなかったのですが…。

 

その2 テレビのバラエティー番組が面白くなくなった

以前は割と楽しく見ることができていたのですが、テレビのバラエティー番組が楽しくなくなってしまいました。
特に「お馬鹿芸人が、解答を間違えてみんなが笑う番組」はもうホント見る意味がないような気がしています。

 

その3 以前と比べ小説を読まなくなった

恐らく「小説読んでる暇があったら、教科書とか論文とか読め。そして研究しろ。」という心理が働いてしまっているのではないかと考えられます。

心行くまでゆっくり小説読みたい…。

 

その4 「要は何?」と思うことが増えた。

のんびり流暢な説明を見たり聞いたりすると、

「完結に言うと何なんだ?むしろ一言で説明してくれ!」

と思うようになりました。

修飾語はできるだけ取っ払ってほしいと思う今日この頃です。

 

その5 論理に断絶や飛躍があると不安になる

「○○だから□□だよね!」

などと言われたとき、

「それ、○○から□□は言えないんじゃない!?」

「というか、前後の文脈がつながってないよ!?」

などの突っ込みを入れたくなってしまうことが多くなりました。

以前はまったくそんなこと気にならなかったのですが…

 

 

 つまらない人間になるのを食い止めろ

どうすれば、以前のテキトーだった自分を取り戻せるのか考えてみようと思います。その前に、どうしてこんなんになっちゃったのかを振り返ってみたいと思います。

一般的な社会科学系の研究のおおまかな流れとしては

  1. 研究のテーマ設定
  2. 調査(業者との打ち合わせ・アンケート実施など)
  3. 分析
  4. 考察
  5. 論文化

という感じす。

なかでも自身に悪(?)影響を与えたと考えられるのは

研究のテーマ設定・分析・考察
あたりです。

 

研究のテーマ設定では、とにかく多くの論文を読み自分の研究の枠組みを作っていきます。ここで熱中しすぎると定義大好き人間になってしまいます。

分析では収集したデータがどのようなことを表しているかということを考えます。ここでも熱中しすぎると論理大好き人間になってしまいます。なぜかというと分析において、データから言えないことを言うのはご法度だからです。「このようなデータはこうだ」というような論理のつながりは絶対なのです。

考察では最終的な結論が必要です。今までの分析結果から必要十分なことだけを取り出して、考えを述べていきます。ここでは、無駄にグダグダと文を書くことはできません。なぜなら、他の研究者の貴重な研究時間を奪ってしまうからです。そうです、完結大好き人間のできあがりです。

 恐らく、研究のここらへんで公私混同してしまうとつまらない、いわゆる堅物な人になってしまうような気がするので、研究活動を行う際はみなさんご注意を。

 

 

※注記
博士課程の方などでも、ときどきツイッターなどで訳の分からない(面白い)発言をたくさんする人を見かけます。きっと疲れすぎているのだと思います。あまり無理をなさらず、お身体にお気をつけください。

AVタイトルの特徴分析 その2

前回の記事はこちら(形態素解析に基づくAVタイトルの特徴分析


ニコニコ学会から「内容的に全年齢対象で発表は無理」と言われてしまったので
こちらで結果の報告をさせていただきたいと思います。

 

特徴的な語に関する経年変化

まず、単純な集計結果をもとに特徴のある単語を3パターンに分類し
それぞれについて見ていこうと思います。

 

  1. 年々割合が上がっている単語(供給Up)

    f:id:oscillograph:20131213145822j:plain

    どうですか、この供給量アップ。
    「○出し」はいったん割合が落ち込みましたが2010年を境に徐々に回復しつつあります。

  2. 年々割合が下がっている単語(供給Down)

    f:id:oscillograph:20131213145959j:plain


    私は「女子高生」好きなんですけどね。

  3. 年々割合が上がっても下がってもいない単語(安定供給)

    f:id:oscillograph:20131213150036j:plain


    「素人」についての予想ですが、「素人が来る!」と考えて2011年に多く出したのが失敗して年々下がっていると考えられます。
    人妻、熟女は比較的安定していますね。

 

主成分分析による各年の特徴

次に統計でよく使われる「主成分分析(※)」という方法を用いて単語と年の関係を推測していきます。
すべての年を通して最もよく使われる上位30語を用いました。
統計ソフトを用いてゴニョゴニョすると以下の図が作成されるのでこれを元に考察を進めます。

f:id:oscillograph:20131213151427p:plain

・縦軸(PC2)
おおざっぱに下から上へ
「素人」→「女子高生」→「姉さん」→「五十路」→「人妻」
と並んでいるので、縦軸は年齢軸(下:低い、上:高い)と捉えることができそうです。
(途中で「娘」とか入っているけれど、細かいことは気にしない。)

・横軸(PC1)
こちらはおおざっぱに左から右への
「撮[盗]る,オ○ニー,みる」→「(中)○し,H,チ○ポ」→「犯す」
という並びを考えると、横軸は交わりの激しさ(左:弱い、右:強い)と捉えることができます。
(あくまで、おおざっぱな見方です。)

 

ということで、縦軸・横軸の解釈を元に各年のAVの内容を特徴づけてみます。

f:id:oscillograph:20131213160658j:plain


2009年:高年齢と優しく交わる(または交わらない)
2010年:低年齢と少し激しめに交わる
2011年:若い子と普通に交わる
2012,2013年:高年齢と激しく交わる

 

という感じです。もちろん現実とうまくがっちしているか分かりません。
また、データの質があまり良くないため、このような結果になったとも考えられます。というかたぶんそうです。

 

もっと細かく分析すると現実をピタリと言い当てる結果が得られるかもしれませんが、(疲れちゃったので)そこまではしません。笑

 

このように現実をうまく表しているかどうかは「神のみぞ知る」という感じですが、データをもとにある程度論理的にその時々の状況を推測することができます。
今回は内容がアレですが、データ分析の大まかな流れと、それらが生(性)活で非常に役立つということを知っていただければ幸いです。


最後まで、駄文を読んでくださってありがとうございました。

 

※補足(主成分分析とは)

主成分分析とは簡単に言うと多次元の情報を、(情報の損失をできるだけ抑えながら)低次元に落とし込むものです。

今回は単語ひとつひとつに対して「2009~2013年の頻度(割合)情報→5年分」が含まれているのでそれをもとに、ひとつの単語を5次元空間の1点にプロットすることができます。
5次元の情報を直観で見る(?)ことはできないので、それを2次元の情報に落とし込んで可視化して見やすくしようということがこの手法の肝です。
また、縦横の軸については単語の並びをもとに分析者が「何を表している軸か」ということを推定します。
これらの背景をもとに上記の分析は行われています。
ホントはどの程度情報損失があるか、などいろいろ言わなければならないのですが、そこまでやってしまうと「ガチ」な人がでてきそうなのでここらへんで留めておきます。
ーーー
主成分分析はR(という統計用のソフト)のprcomp関数で算出しています。

 

 

※本記事は真面目なジョーク記事です。

例のAVタイトルデータ解析でニコニコ学会に応募してみました。

例の研究でニコニコ学会に応募しました。
以下のページからアクセスすることができます。

 

No.20『形態素解析に基づくAVタイトルの特徴分析』oscillograph | 第5回ニコニコ学会βシンポジウム

 

この研究(?)はAVのタイトルデータを用いてアダルト産業界の動向を把握しようというものです。

もしよろしければ投票なんかしていただけると嬉しいかもしれないです…。

 

あと、以下が今回のまとめです。(はじめに、先行研究、研究方法まで)

論文風のまとめ

アメリカのポルノデータベースから全70611件のデータを取得しました。

おはようございます。夜のoscillographです。

今回は前回に引き続き、アダルトビデオのタイトル分析に関する記事です。

 

ですが日本のものはいったん置いといて、アメリカのアダルトビデオデータも取得しておこうと思いましたので、今回はそのデータ取得についての記事です。

今回データ取得元として選んだのはadult film databaseです。

こちらアメリカで1、2位を争う主流のアダルトビデオデータベースです。
で、今回もシコシコとデータを収集していきます。

以下のような手順を用いました。

  1. HTMLの情報を取得しながら(アドレスの引数(→クエリパラメータ)で「type」を「title」に指定して、「page」に数値(N)を指定してやると全データの「(N-1)×100+1~N×100」件分を表示してくれる構造らしくそこらへんをうまく使いました。全709ページです。)
  2. 必要部分だけ正規表現で切り取って(HTML構造でうまく取り出せませんでした。あと、発売日が数値4ケタで固定されているようでしたので、そこもうまいこと処理しました。)
  3. csv形式でファイルに保存

データ構造としては<ID, 発売日, タイトル…>のような形です。
ちなみにRubyを用いてプログラミングしてます。
いずれは画像情報とかも取得したいものですね。

という訳でちょっとした分析データもおいておこうと思います。
アメリカのエロビデオでよく使われる単語トップ20です。

 

f:id:oscillograph:20131125164833j:plain

 

アメリカのAVで「black」という単語が一番使われているというのは驚きですね。
また、「amature(素人)」が上位に来ているのはなんだか嬉しい感じがします。笑

 

細かい話ですが、ステミング処理とストップワード処理をしています。というかステミング処理にめちゃくちゃ時間がかかりました。(4時間くらい)

とりあえず、データがそろったのでこいつらを使って遊んでみようと思います。

 

あと、あまり記事と関係ない話ですがこの研究(?)に対してニコニコ学会への推薦をいただきました

応募してみたので暇な人はそちらもご覧ください。(29日以降見れるそうです。後日別記事を載せます。)