読者です 読者をやめる 読者になる 読者になる

学びや思いつきを記録する、超要約ノート

国内MBA2013年入学、2015年無事卒業!読んだ本、記事、などの読書ノート。 忘れないために超要約整理。そんな記録。

データマイニングのイメージがつかみたい人にはお勧めできる超入門書。 岡島裕史/数式を使わないデータマイニング入門

データマイニングって何じゃらほいって話をわかりやすく説明してくれる超入門書。
具体的なイメージがわいていない人向けで、
既に少しでもかじったことあるなら、本書は不要かもしれない。

でも、どういうことやるのか具体的なイメージがわいてない、って人が
概要を知るのには最適な一冊。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)


相関と因果

さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ。
P.31

これはデータマイニングに関わらず、理解しておかないといけない。
なぜそうなるのかは説明できないことも多いってこと。
そして相関関係があるからといって因果関係があるとは限らないってのも大切。


過学習とか

あるデータから法則を見つけ出す場合、その法則が複雑であればあるほど、そのデータをうまく説明できる。もともとそのデータをもとに法則を見つけ出しているのだから、これは自明であるといえる。しかし、「法則」は、他のデータに適用したときにもうまく動作して、はじめて価値を持つ。あまりに複雑な法則は、そのもとになったデータの影響を受けすぎて、別のデータに対して適用できなくなる可能性があるのだ。
P.101

だから説明力が高いモデルができてもうかつには喜べない。
単なる過学習かもしれない。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)