データサイエンスだらけの桃太郎
昔々あるところに分析からの示唆出しが趣味のおじいさんと特徴量生成が得意なおばあさんがいました。
おじいさんはオンプレサーバーへ定時確認に、おばあさんはクラウドサーバーへ重要指標のモニタリングに行くと、フルマネージドなデータベースから外れ値の桃群が現れました。
「こんな桃群は見たことがない。gzip圧縮してローカルで中身を見てみよう」
持ち帰った桃群をローカルで解凍してみると、中からメモリに乗り切らないサイズの赤ん坊が出てきました。
赤ん坊はExcelで開けなかったので、おじいさんとおばあさんはBig Queryで分析しました。
二人はこの赤ん坊を
「桃.gzから生まれたので桃太郎と名付けるのが妥当だろう。」
と考えて桃太郎と名付けました。
成長がサチった桃太郎はある日おじいさんからとおばあさんに言いました。
「”ログデータ溜まってきたからなんか活用してCVR向上させて”と言ってくる鬼ヶ島 Inc. のおじさんを成敗したいです。」
「もし教師データをくれたら予測モデルを作って業務システムに組み込みましょう。」
桃太郎は教師データを渡して犬.csvを家来にしました。
「もしsudo権限をくれたら、分散コンピューティングの分析環境を構築しましょう。」
桃太郎はsudo権限を渡して猿.sqlを家来にしました。
桃太郎が考案したデータマイニング手法をSIGKDDで発表していると、キジ.pyが質問をしてきました。
「素人質問ですが答えてくれたら、御社のビジネス課題を定式化します。」
回答に手こずった桃太郎は「sorry, I want to discuss later.」と答え、discuss later の後、キジ.pyを家来にしました。
データ解析を魔法か何かと勘違いしている赤おじさんが
中堅データサイエンティストを一見すると不可能なCVR向上プロジェクトにジョインさせていました。
また、データサイエンティストを万能な総合職と勘違いしている青おじさんが、
新人データサイエンティストにたった一人でシステム構築〜モデル生成〜営業をさせようとしていました。
猿.sqlはおじさんが若い頃に構築した定義がはちゃめちゃなDBにint制約やインデックスを導入し分析者が使いやすい環境を構築しました。
キジ.pyはおじさんたちのそもそものビジネス課題がおかしいことを指摘し、ステークホルダーとビジネス課題についてデータ解析の観点から根本の目線合わせを行いました。
こうして桃太郎たちは鬼ヶ島 Inc. のおじさんたちを成敗し、その過程を勉強会で発表し賞賛を受けました。
めでたしめでたし。