読者です 読者をやめる 読者になる 読者になる

学びや思いつきを記録する、超要約ノート

国内MBA2013年入学、2015年無事卒業!読んだ本、記事、などの読書ノート。 忘れないために超要約整理。そんな記録。

10年前から実践していたと思うと頭が下がる。今はずいぶんやりやすくなったんだな。 マイケルJ.A.ベリー ゴードン・リノフ /マスタリング・データマイニング

今から10年以上も前の本なのだが、
データマイニングのビジネスへの活用事例を紹介している本。

基本的なマイニング手法というのは変わっていないことがわかる。

というかこういうのを読んで学べば学ぶほど、
知識の有る無しって大きな差だなと思う。

ビッグデータだのデータサイエンティストだのと浮かれている場合ではないのだよ。
マーケターは昔からこういった問題に取り組んできたのですね。

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)



決定木モデルのインプット

変数にどんなものを用意しておけば
精度が上がるんだろうというのは永遠の悩みな訳ですが、
小売りの場合、顧客の売上をカテゴリ別で整理すること、
また、当該顧客がいくつのカテゴリにまたがって
購入しているかというカウントが有益そう、と感じた。

そんな具体的なヒントが散らばっている。


現在の顧客は過去の施策の反映

この視点は忘れないようにしたい。
過去の施策を踏まえて分析しないと、
今望まれている潜在顧客ではなく、
過去のターゲット市場を「発見する」だけ。

これは結構落とし穴だよなぁ、と思う。


作業時間によるタイムラグを考慮

先月までのデータを使って今月を予想します、というのは
大いに結構なのだけど、先月末までのデータがいつ揃うのか、を意識しないと
馬鹿げた事態になる。
例えば先月のデータが締まるのが今月半ばだとする。
だとすると、今月の分析に着手できるのは既に後半戦で、
月の半分は待ちの状態。
それってどうなの?という話。


データの密度

あるアクションにいたるデータが全レコード数の何%を占めているか、
という点において下記2パターンのデータ群があったとする。

・100000件で15%
・50000件で30%

共にアクション数は15000件で同じなのだが、
後者(50000件で30%)で作られたモデルの方が、
前者のモデルのパフォーマンスを上回った。
また、密度が一定であれば、データ数が多いほうが精度が上がる。

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)