データマイニングって何じゃらほいって話をわかりやすく説明してくれる超入門書。
具体的なイメージがわいていない人向けで、
既に少しでもかじったことあるなら、本書は不要かもしれない。
でも、どういうことやるのか具体的なイメージがわいてない、って人が
概要を知るのには最適な一冊。
数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
- 作者: 岡嶋裕史
- 出版社/メーカー: 光文社
- 発売日: 2006/05/17
- メディア: 新書
- 購入: 27人 クリック: 123回
- この商品を含むブログ (87件) を見る
相関と因果
さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ。
P.31
これはデータマイニングに関わらず、理解しておかないといけない。
なぜそうなるのかは説明できないことも多いってこと。
そして相関関係があるからといって因果関係があるとは限らないってのも大切。
過学習とか
あるデータから法則を見つけ出す場合、その法則が複雑であればあるほど、そのデータをうまく説明できる。もともとそのデータをもとに法則を見つけ出しているのだから、これは自明であるといえる。しかし、「法則」は、他のデータに適用したときにもうまく動作して、はじめて価値を持つ。あまりに複雑な法則は、そのもとになったデータの影響を受けすぎて、別のデータに対して適用できなくなる可能性があるのだ。
P.101
だから説明力が高いモデルができてもうかつには喜べない。
単なる過学習かもしれない。
数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
- 作者: 岡嶋裕史
- 出版社/メーカー: 光文社
- 発売日: 2006/05/17
- メディア: 新書
- 購入: 27人 クリック: 123回
- この商品を含むブログ (87件) を見る