共分散構造分析の概要がざっくりわかる入門書　豊田秀樹前田忠彦柳井晴夫／原因をさぐる統計学共分散構造分析入門

仮説検証型の論文ではかなりお世話になるであろう
共分散構造分析に関しての入門書。

実際の計算はIBMのSPSS Statistics & Amos、SASのCALISなどの専用ソフトを使えば
そう難しいことではなく、大切なのは概念や考え方を捉えておくことなのかな、と思う。

本書は数式がずらーっと並ぶことは無く、文系にも優しい入門書だった。

仮説や予測モデルの構築をする際に、あーでもないこーでもないと探索していく過程が、
Amosなどを使えば随分簡単にできそうなので、
実務でも利用価値は高いのではないか、と思い始めたところ。

いずれにしても、平易な日本語で解説してくれているので、本当に勉強になった。
でも、それも以前読んだ統計の本があったからかもしれない。
その時わからなかったことがこれ読んだらわかった。
読書ってそういうもんだから、たくさん読んだ方が学びも多いし、学びの効率もよくなる気がする。

原因をさぐる統計学―共分散構造分析入門 (ブルーバックス)

作者: 豊田秀樹,前田忠彦,柳井晴夫
出版社/メーカー: 講談社
発売日: 1992/07/15
メディア: 新書
購入: 6人クリック: 30回
この商品を含むブログ (15件) を見る

相関と因果は違う

これは統計の基本だけれども、とても大切なこと。
AとBの２つのデータに相関関係があっても、
それはAが原因となってBが起きている（A→B）のか、その逆（B→A)なのか、わからない。
もしかすると、Cという原因がAとBの両方に影響を与えているかもしれない。

①このようにデータ間の因果関係を想定したモデルを構築し、
②実際のデータが与える影響度合いを計算（パス分析）し、
③複数のモデルを比較検討しながら、優れたモデルを発見（データ間の因果関係を分析）する

そんなようなことが、共分散構造分析で分析できること。
仮説の検証はもちろんだが、モデルを考えることは仮説の構築そのものであり、
パス図をイメージしながら考えることで仮説構築の精度も上がりそう。

因子分析の考え方

探索的因子分析では、因子数が2つ以上になると、
因子数を決めても解が1通りに定まらないという「回転の不定性」という性質がある。
なので、実際の分析ではある種の制約を課して、初期解を求める。
初期解を求めた後は、結果の解釈が容易になるような解を求めるために、
「因子の回転」という手続きをする。

解釈が容易な解とは？

解釈が容易な解とはどういった解なのか？
それは、例えば個々の観測変数ができるだけ少数（可能なら1個）の因子から
影響を受け、残りの因子からの影響が0に近づくような解。
確認的因子分析に近い解とも言える。
なぜなら、個々の観測変数が設定した数個の因子のうち、
1個からのみの影響を受けているのであれば、それだけ説明しやすいから。
こういった解のことを「単純構造を持つ解」という。

回転の種類と使い分け

昔読んだSPSSの本には詳しく書いてなくて謎だった
回転の種類による違いと使い分けがこの本には載ってた！
まず、単純構造を持つ解を求める際に使われる代表的な手法が、
バリマックス回転とプロマックス回転。

で、そもそも因子の間に相関関係が無いものと仮定して導かれる直交解と
因子間の相関関係を認める場合の斜交解がある。

バリマックス回転：直交解
プロマックス回転：斜交解

従来の因子分析はバリマックス回転を使う場合が多かったらしい。
ただ、探索的因子分析の場合は、複数の因子同士が無相関ってことはありえない。
さらにそもそも、因子同士が無相関だったら、因果モデルも作りづらい。
というわけで、因子間の相関関係はあるものと考える方が理にかなっていて、
プロマックス回転を用いた解の方が、因果モデルの分析としては便利。

因果モデルの適合性

GFI
０～１までの値をとり、分析者が構成した因果モデルが、データ（共分散構造行列）を
何パーセント説明したかという、モデルの「説明力」の目安。
GFIの値が1に近づくほど、説明力のあるモデル、ということになる。

ただし、気をつけなくてはいけないのは、
統計モデルは母数の数を増やして複雑なモデルを構成すると、
見かけ上の説明力が上昇するという一般的な傾向がある。
分析に使ったデータにだけよく当てはまっていて、
実際の予測精度が低いという事態が起きる。

AGFI
モデルの説明力と母数の安定性の間には、同時に成立させるのが難しい関係がある。
そこで、不安定さを割引した調整後のGFIという意味のAGFIという指標がある。

GFI >= AGFI　という関係で、2つの指標の乖離が大きい場合は、
そのモデルはあまり好ましくない。

AIC
Akaike's Information Criterionの略。
すべての統計モデルは「説明力」と「安定性」の2つの側面から評価される。
この2つの視点を統合したのがAICという指標で、そのモデルの予測力を表している。
最尤推定法によって母数を推定した統計モデルの良さを測る指標で、
AICの値は小さいほど良いとされる。
GFIやAGFIから候補のモデルを選抜し、その中でAICが
最も低いモデルを採用する、というのが一般的なモデルの選び方。

決定係数
GFIがモデルがデータを説明する割合であるのに対し、
「決定係数」はモデル内部の「構造的な変数」が
「内生変数」を説明する割合を示している。
決定係数があまりに小さいとどうなるかというと、
原因としてモデルに導入した構造変数では、
結果の変動が予測できないことになる。
要するに因果関係が弱すぎ、ということ。

原因をさぐる統計学―共分散構造分析入門 (ブルーバックス)