ビジネス書大好きMBAホルダーが教える私の学びシェア

本を読んでそこから新しい知識を得たり、学んだりすることが大好き。学びたい、成長したいという意欲のあるビジネスマンの皆さん、一緒に成長しましょう。

データマイニングのイメージがつかみたい人にはお勧めできる超入門書。 岡島裕史/数式を使わないデータマイニング入門

データマイニングって何じゃらほいって話をわかりやすく説明してくれる超入門書。
具体的なイメージがわいていない人向けで、
既に少しでもかじったことあるなら、本書は不要かもしれない。

でも、どういうことやるのか具体的なイメージがわいてない、って人が
概要を知るのには最適な一冊。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)


相関と因果

さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ。
P.31

これはデータマイニングに関わらず、理解しておかないといけない。
なぜそうなるのかは説明できないことも多いってこと。
そして相関関係があるからといって因果関係があるとは限らないってのも大切。


過学習とか

あるデータから法則を見つけ出す場合、その法則が複雑であればあるほど、そのデータをうまく説明できる。もともとそのデータをもとに法則を見つけ出しているのだから、これは自明であるといえる。しかし、「法則」は、他のデータに適用したときにもうまく動作して、はじめて価値を持つ。あまりに複雑な法則は、そのもとになったデータの影響を受けすぎて、別のデータに対して適用できなくなる可能性があるのだ。
P.101

だから説明力が高いモデルができてもうかつには喜べない。
単なる過学習かもしれない。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)