相関分析とは
相関分析は、2つの変数(データ)の関係を調べる方法です。
例えば、あるクラスの生徒の数学のテストの点数と英語のテストの点数があるとします。数学の点数が高い生徒は英語の点数も高い傾向にある場合、これを「正の相関」と言います。
一方、数学の点数が高い生徒は英語の点数が低い場合は「負の相関」となります。相関がない場合は、2つの変数間に明確な関係が見られません。
相関係数とは
相関係数は、2つの変数間の相関の強さを示す数値です。この値は通常、-1から1までの範囲に収まります。
- 1 に近い場合:強い正の相関(片方が増えるともう片方も増える)
- -1 に近い場合:強い負の相関(片方が増えるともう片方は減る)
- 0 に近い場合:ほとんど相関がない
相関係数の計算方法
相関係数は「ピアソンの積率相関係数」と呼ばれるもので、以下の式で計算されます。
ここで、cov(X,Y)
はXとYの共分散、s_X
とs_Y
はそれぞれXとYの標準偏差です。この計算によって、異なるスケールを持つデータ間でも比較可能な指標を得ることができます。
実例
例1: 身長と体重
あるクラスの生徒10人について、身長(cm)と体重(kg)のデータを集めたとします。以下はそのデータです:
生徒 | 身長 (cm) | 体重 (kg) |
---|---|---|
1 | 150 | 45 |
2 | 160 | 55 |
3 | 170 | 65 |
4 | 180 | 75 |
5 | 155 | 50 |
6 | 165 | 60 |
7 | 175 | 70 |
8 | 185 | 80 |
9 | 158 | 52 |
10 | 172 | 68 |
このデータを使って相関係数を計算すると、例えば0.9という結果が得られたとします。これは非常に強い正の相関を示し、身長が高くなるほど体重も増加する傾向があることを意味します。
例2: 気温とアイスクリーム売上
夏の日に気温とアイスクリームの売上データを考えます。気温が上がるにつれてアイスクリームの売上も増えることが多いため、この場合も正の相関があります。もし気温と売上データから計算した相関係数が0.85であれば、やはり強い正の相関があると言えます。
相関係数の解釈
相関係数には目安があります。一般的には以下のように分類されます。
相関係数の絶対値 | 意味 |
---|---|
0.0 – 0.2 | 無相関 |
0.2 – 0.4 | 弱い相関 |
0.4 – 0.7 | 中程度の相関 |
0.7 – 1.0 | 強い相関 |
※注意点
相関係数は因果関係を示すものではありません。 例えば、 アイスクリーム売上と気温には正の相関がありますが、それぞれが直接的に影響し合っているわけではなく、他にも影響する要因(季節など)が存在します。また、 データポイントが少ない場合や直線的でないデータの場合には注意が必要です。
このように、 相関係数はデータ分析において非常に役立つツールですが、その解釈には慎重さも求められます。