今から10年以上も前の本なのだが、
データマイニングのビジネスへの活用事例を紹介している本。
基本的なマイニング手法というのは変わっていないことがわかる。
というかこういうのを読んで学べば学ぶほど、
知識の有る無しって大きな差だなと思う。
ビッグデータだのデータサイエンティストだのと浮かれている場合ではないのだよ。
マーケターは昔からこういった問題に取り組んできたのですね。
マスタリング・データマイニング―CRMのアートとサイエンス (事例編)
- 作者: マイケルJ.A.ベリー,ゴードン・リノフ,江原淳
- 出版社/メーカー: 海文堂出版
- 発売日: 2002/07
- メディア: 単行本
- この商品を含むブログを見る
決定木モデルのインプット
変数にどんなものを用意しておけば
精度が上がるんだろうというのは永遠の悩みな訳ですが、
小売りの場合、顧客の売上をカテゴリ別で整理すること、
また、当該顧客がいくつのカテゴリにまたがって
購入しているかというカウントが有益そう、と感じた。
そんな具体的なヒントが散らばっている。
現在の顧客は過去の施策の反映
この視点は忘れないようにしたい。
過去の施策を踏まえて分析しないと、
今望まれている潜在顧客ではなく、
過去のターゲット市場を「発見する」だけ。
これは結構落とし穴だよなぁ、と思う。
作業時間によるタイムラグを考慮
先月までのデータを使って今月を予想します、というのは
大いに結構なのだけど、先月末までのデータがいつ揃うのか、を意識しないと
馬鹿げた事態になる。
例えば先月のデータが締まるのが今月半ばだとする。
だとすると、今月の分析に着手できるのは既に後半戦で、
月の半分は待ちの状態。
それってどうなの?という話。
データの密度
あるアクションにいたるデータが全レコード数の何%を占めているか、
という点において下記2パターンのデータ群があったとする。
・100000件で15%
・50000件で30%
共にアクション数は15000件で同じなのだが、
後者(50000件で30%)で作られたモデルの方が、
前者のモデルのパフォーマンスを上回った。
また、密度が一定であれば、データ数が多いほうが精度が上がる。
マスタリング・データマイニング―CRMのアートとサイエンス (事例編)
- 作者: マイケルJ.A.ベリー,ゴードン・リノフ,江原淳
- 出版社/メーカー: 海文堂出版
- 発売日: 2002/07
- メディア: 単行本
- この商品を含むブログを見る