ビジネス書大好きMBAホルダーが教える私の学びシェア

本を読んでそこから新しい知識を得たり、学んだりすることが大好き。学びたい、成長したいという意欲のあるビジネスマンの皆さん、一緒に成長しましょう。

10年前から実践していたと思うと頭が下がる。今はずいぶんやりやすくなったんだな。 マイケルJ.A.ベリー ゴードン・リノフ /マスタリング・データマイニング

今から10年以上も前の本なのだが、
データマイニングのビジネスへの活用事例を紹介している本。

基本的なマイニング手法というのは変わっていないことがわかる。

というかこういうのを読んで学べば学ぶほど、
知識の有る無しって大きな差だなと思う。

ビッグデータだのデータサイエンティストだのと浮かれている場合ではないのだよ。
マーケターは昔からこういった問題に取り組んできたのですね。

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)



決定木モデルのインプット

変数にどんなものを用意しておけば
精度が上がるんだろうというのは永遠の悩みな訳ですが、
小売りの場合、顧客の売上をカテゴリ別で整理すること、
また、当該顧客がいくつのカテゴリにまたがって
購入しているかというカウントが有益そう、と感じた。

そんな具体的なヒントが散らばっている。


現在の顧客は過去の施策の反映

この視点は忘れないようにしたい。
過去の施策を踏まえて分析しないと、
今望まれている潜在顧客ではなく、
過去のターゲット市場を「発見する」だけ。

これは結構落とし穴だよなぁ、と思う。


作業時間によるタイムラグを考慮

先月までのデータを使って今月を予想します、というのは
大いに結構なのだけど、先月末までのデータがいつ揃うのか、を意識しないと
馬鹿げた事態になる。
例えば先月のデータが締まるのが今月半ばだとする。
だとすると、今月の分析に着手できるのは既に後半戦で、
月の半分は待ちの状態。
それってどうなの?という話。


データの密度

あるアクションにいたるデータが全レコード数の何%を占めているか、
という点において下記2パターンのデータ群があったとする。

・100000件で15%
・50000件で30%

共にアクション数は15000件で同じなのだが、
後者(50000件で30%)で作られたモデルの方が、
前者のモデルのパフォーマンスを上回った。
また、密度が一定であれば、データ数が多いほうが精度が上がる。

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)

マスタリング・データマイニング―CRMのアートとサイエンス (事例編)