読者です 読者をやめる 読者になる 読者になる

学びや思いつきを記録する、超要約ノート

国内MBA2013年入学、2015年無事卒業!読んだ本、記事、などの読書ノート。 忘れないために超要約整理。そんな記録。

システム会社に踊らされて失敗に終わるのは避けたい。ハーバード・ビジネス・レビュー/ビッグデータ競争元年

ハーバード・ビジネス・レビューもビッグデータの大特集。
もう、盛り上がりまくりですよ、ビッグデータ。
猫も杓子もビッグデータ。




データに基づく意思決定の重要さは否定しないし、
本当にビッグデータに向き合うことで得られるものはでかいのだろうとも思うが、
データを解釈できる人材が意思決定者の側にいないと価値がない。
そもそも、ビッグデータに手を出す前に、今既に持っている
スモールデータを使いこなせているのか??
十分に使いこなせていて、人材も手法にも知見があって、という企業がどれほどあるだろう。

少なくとも私のいる業界は出版なのでそんな会社、皆無だ。
でも出版業界は頭悪すぎる業界だからベンチマークにならないと思うけどね・・・

今回の特集でも当然ビッグデータの可能性を語る記事が多かったのだけど、
統計数理研究所所長の樋口知之氏のインタビューが、浮ついた感じじゃなくて良かった。

エンドユーザーの価値を、何よりも意識する時代

データから何かを見いだし、活用しようという考え方自体は昔からあったこと。
でも最近の大きな変化は、エンドユーザーを非常に意識する時代になった。


データ解析を大別すると3種類

「データ・マイニング」
なるべく多くのデータを集めて、紙おむつとビールは一緒に売れる、みたいな事実を発見するアプローチ。
データ・マイニングの特徴は「列挙」すること。
膨大なデータから条件に当てはまるものを、しらみつぶしに数え上げる、というイメージ。
それをリアルタイムに行うことは非常に難しく、重要な研究課題。


「モデリング」
一歩進んで、一般的な別の事柄に適用できるモデルを作るアプローチ。
今までなかった事例に対する予測をする。
列挙よりもさらに難しい。なぜなら「因果の表現」が必要だから。
何が、何に影響をしている、あるいは影響を受けているのか、という
因果関係を見いだすことがデータ解析の中で最も重要かつ難しい所。


「最適化」
モデルを使って会社の利益を上げるための現実的かつ最善の方策を求めるのが最適化。


サンプル数をいくら増やしても、データ空間を稠密に埋めることはできない。

サンプル数が100で体重と身長のような二項目に対して調べるのであれば、
x軸とy軸にデータを並べていけば、二次元で100個の点の散布図が描ける。
その程度なら、何らかの関連を見出すことも難しくない。
でも、これが検査項目数が10個に増えたらどうなるか?
10次元というと想像もつかない空間だけど、
要するに10次元の中に100個の点が並んでいる状態というのはスカスカの状態。
10次元の空間の自由度は2次元の5倍(10 / 2 = 5)、ではなく、
累乗的で(10^10 / 10 ^ 2 = 100000000)、なんと1億倍!になるんだとさ。
そりゃ、スカスカだわ・・・
で、スカスカってことは、その空間に配置したデータの近くにデータがないってこと。
超広大な空間にポツポツっと点がありますが、、、、という状況で、傾向を読み取るのは非常に困難。

つまり、データの量が多い方が、データの次元が増えて、正確に予測することが難しい、といった
何とも馬鹿げた状態が起こってしまう!
これがビックデータ時代の統計のいちばん難しい技術的問題。


価値密度は低い

ビッグデータはボリュームが大きいので価値は高い、ただし、価値密度は低い。
つまり、データの量が10倍になったからと言って、価値が10倍になる訳ではない、ということ。
ということは、扱うデータ量を10倍にするために、コストを10倍かけてしまったら、採算とれない、ということ。

以下は、吉田氏以外の記事から。


データは物語をほしがっている

まぁ、結局何らかの解釈と決定がなければ意味ないんだってこと。
そして、結局は物語を紡げるかどうかなんだよ、と。


信用のない所にデータは集まらない

国領二郎氏の記事で確かにと思ったのは、ここ。
プラットフォームが決定的に重要になる。
クラウドにデータが集まる、と言っても、その1つ1つは、
ショッピングサイトだったり、コミュニティサイトだったりする訳です。
そういった保護された空間にデータは貯まっていく。
信頼できる金融機関に金を預けるように、信頼できるプラットフォームに情報は集まっていく、というお話。