情報地球科学 (2024年前学期) 第06回

今回は「相関」とか「相関係数」の話。 テキスト第4章に沿って進める。

相関、相関係数

相関とは

変化する2つのデータの間に、

ような傾向がある場合、これらの2つのデータの間には「相関がある」という。

2つのデータの間によい相関があるならば、

それには「最小二乗法」と同じような考え方を使うとOK。

相関係数とは

ここで扱う相関係数は「線形相関係数 (linear correlation coefficient)」とも、「ピアソンの積率相関係数 (Pearson product-moment correlation coefficient)」とも呼ばれている。

\(N\) 個のデータの組 \((x_1, y_1),\cdots,(x_N,y_N)\) があるとき、相関係数 \(r\) は次のように定義される。 \begin{equation} r\equiv\dfrac{\dfrac{1}{N}\displaystyle\sum_{i=1}^{N}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\dfrac{1}{N}\displaystyle\sum_{i=1}^{N}(x_i-\overline{x})^2}\sqrt{\dfrac{1}{N}\displaystyle\sum_{i=1}^{N}(y_i-\overline{y})^2}} =\dfrac{\displaystyle\sum_{i=1}^{N}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\displaystyle\sum_{i=1}^{N}(x-\overline{x})^2}\sqrt{\displaystyle\sum_{i=1}^{N}(y-\overline{y})^2}} \tag{4.1} \end{equation} 定義式の各項はどういう意味か?

共分散の意味を理解するため、分布を示すグラフを右図のように、\(\overline{x}\) と \(\overline{y}\) との大小関係で4つの部分に分けてみる (第1象限から第4象限に相当; 図4.2も参照)。

分散 \(\sigma^2\) に2通りの計算式があったのと同様に、共分散 \(\sigma_{xy}\) にももう1つの計算式がある。 共分散の定義式を変形していくと \begin{equation} \dfrac{1}{N}\displaystyle\sum_{i=1}^{N}(x_i-\overline{x})(y_i-\overline{y}) =\overline{(xy)}-(\overline{x})(\overline{y}) \tag{4.5} \end{equation} という関係式を得る。 プログラミングで共分散を求めるには、この計算式を用いるとよい。 しかし、分散を求める場合と同様に、2つの式の使い分けも必要になる。

以上をまとめると結局、相関係数 \(r\) は次の式で求められることになる。 \begin{equation} r=\dfrac{\overline{(xy)}-(\overline{x})(\overline{y})}{{\sigma_x}{\sigma_y}} \tag{4.7} \end{equation}

線形最小二乗法との関係

第05回で出てきた「最小二乗法の決定係数」\(r^2\) ((3.20)式)と比較してやると、相関係数の2乗が決定係数 になっていることが分かる。

相関係数と決定係数の関係から、

ことがいえる。

相関係数と回帰直線の傾きの間には \begin{equation} {a}={r}\dfrac{\sigma_y}{\sigma_x} \quad\leftrightarrow\quad {r}={a}\dfrac{\sigma_x}{\sigma_y} \tag{4.9} \end{equation} という関係がある。 これより、

極端な場合での相関係数の例

相関係数に関する補足