情報地球科学 (2024年前学期) 第05回

今回は新たに「回帰 (regression)」とか「最小二乗法 (lease square method)」。 テキスト第3章に沿って進める。

回帰とは

2種類のデータ \(\{x_1,x_2,\cdots,x_N\}\) と \(\{y_1,y_2,\cdots,y_N\}\) の間の関係を調べたい。

線形最小二乗法

\(N\) 個のデータの組 \((x_1, y_1),\cdots, (x_N,y_N)\) があるとき、これを直線 \(y=ax+b\) に回帰させることを考える。

回帰直線の方程式を求める

各々のデータ \((x_i,y_i)\) について、 \[ {e_i}\equiv{y_i}-{({a}x_i+b)} \tag{3.1} \] で定義される \(e_i\) を考えると、これは「あてはめ」られた直線 \(y=ax+b\) からのずれを表す量である (右図; 図3.1も参照)。

データの「あてはめ」の程度を、\(e_i\) の2乗の平均値 \(E\) (分散みたいなもの) により見積る。 その際、\(a\)、\(b\) をうまく選ぶことにより、\(E\) をできるだけ小さくしたい。 \begin{align} E& =\frac{1}{N}\sum_{i=1}^{N}(e_i)^2=\frac{1}{N}\sum_{i=1}^{N}(y_i-{a}x_i-b)^2 \notag\\& =\frac{1}{N}\sum_{i=1}^{N}{y_i}^2+{a}^2\frac{1}{N}\sum_{i=1}^{N}{x_i}^2+{b}^2-2{a}\frac{1}{N}\sum_{i=1}^{N}{x_i}{y_i}+2{a}{b}\frac{1}{N}\sum_{i=1}^{N}{x_i}-2{b}\frac{1}{N}\sum_{i=1}^{N}{y_i} \tag{3.2} \end{align} なお式変形にあたって、\(a\) と \(b\) は定数だから \(\sum\) の外に出せることを繰り返し用いている。 さらに、この中にある見覚えのある項を形式的に書き直すと、 \begin{equation} E=\overline{(y^2)}+{a}^2\overline{(x^2)}+{b}^2-2{a}\overline{(xy)}+2{a}{b}(\overline{x})-2{b}(\overline{y}) \tag{3.3} \end{equation} のようになる。

\(E\) が最小となるように \(a\) と \(b\) の値を決めたい (まさに「最小二乗法」)。 そこで \(E\) が極値をとるような \(a\) と \(b\) を探そう。 \begin{equation} \begin{split} 0&=\frac{\partial{E}}{\partial{a}} =2{a}\overline{(x^2)}-2\overline{(xy)}+2{b}(\overline{x}) \\ 0&=\frac{\partial{E}}{\partial{b}} =2{b}+2{a}(\overline{x})-2(\overline{y}) \end{split} \tag{3.4} \end{equation} これらを整理すると、\(a\) と \(b\) に関する連立一次方程式になる。 \begin{equation} \begin{split} {a}\overline{(x^2)}+{b}(\overline{x}) &= \overline{(xy)} \\ {a}(\overline{x})+{b} &= (\overline{y}) \end{split} \tag{3.5} \end{equation} これから \(a\) を解くと \begin{align} {a}& =\frac{\overline{(xy)}-(\overline{x})(\overline{y})}{\overline{(x^2)}-(\overline{x})^2} \tag{3.6} \\& =\frac{\overline{(xy)}-(\overline{x})(\overline{y})}{{\sigma_x}^2} \tag{3.7} \end{align} この \(a\) を使うと、\(b\) は次の式により求まる。 \begin{equation} b=\overline{y}-{a}\overline{x} \tag{3.9} \end{equation}

回帰直線の特徴

求める直線の方程式は \begin{equation} y={a}{x}+{b}={a}{x}+\overline{y}-{a}\overline{x} ={a}({x}-\overline{x})+\overline{y} \tag{3.16} \end{equation} この直線は常に点 \((x,y)=(\overline{x},\overline{y})\) を通るはず。 即ち回帰直線とは、例えば図3.2のように

定められている。


「あてはめ」のもっともらしさ

ここで求まった \(a\) と \(b\) を使うと、「あてはめ」られた直線からのずれの二乗の平均 \(E\) はどのくらいに小さくなっているだろうか。 式(3.9)を利用して、もとの式を変形してみると \begin{equation} E={\sigma_y}^2-{a}^2{\sigma_x}^2 \tag{3.17} \end{equation} と書き直せる。 この式より、 \begin{equation} 0\le{E}\le{\sigma_y}^2 \tag{3.18} \end{equation} であることが分かる。 特に

ことに注意。

ということは、「\(E\) がどれくらい小さくなったか?」を数字で表わすには、\(E\) と \(y\) の分散 \({\sigma_y}^2\) との比を調べるのが有効である。 \begin{equation} \frac{E}{{\sigma_y}^2}=1-{a}^2\frac{{\sigma_x}^2}{{\sigma_y}^2} \tag{3.19} \end{equation} であるが、この式に登場する \({a}^2\dfrac{{\sigma_x}^2}{{\sigma_y}^2}\) という項を \(r^2\) と書いてみることにしよう。 この \(r^2\) を 決定係数と呼び。 \begin{equation} r^2=a^2\dfrac{{\sigma_x}^2}{{\sigma_y}^2} =\left[\dfrac{\overline{(xy)}-(\overline{x})(\overline{y})}{{\sigma_x}^2}\right]^2\dfrac{{\sigma_x}^2}{{\sigma_y}^2} =\frac{\left[\overline{(xy)}-(\overline{x})(\overline{y})\right]^2}{{\sigma_x}^2{\sigma_y}^2} \tag{3.20} \end{equation} のように与えられる。

データ \(\{y_1,y_2,\cdots,y_N\}\) のばらつきを調べると、

即ち、「基準値」からのばらつき (分散) が \((1-r^2)\) 倍に縮小されたことになる。 この特徴をグラフで観察してみると、図3.3の通り ことになる。 図3.3bでは、同じくらいそこそこの割合のデータを含む「帯」の幅が図3.3aと比べて細くなっていることに注意。

\(0\le{E}={\sigma_y}^2(1-r^2)\le{\sigma_y}^2\) であることから、決定係数 \(r^2\) は \(0\le{r^2}\le1\) を満たす。

最小二乗法で「あてはめ」の計算をする際には、必ず決定係数の値もチェックすること。