情報地球科学 (2024年前学期) 第04回

第02回で「平均・分散・標準偏差」の定義などの説明はざっくり終わっている。しかし (演習の進度との調整を例年やっている都合もあり)、平均とか分散とか標準偏差に関連した話を2回分入れておきたい。その2回目は、テキスト第2.4章に沿って、ちょっとマニアックな話を。

測定の確からしさと「平均・分散・標準偏差」

一見しただけだとあまり関係のなさそうな、以下の3つのテーマについて語ってみる。

なぜ「多数の測定をして、その平均値をとる」のか?
測定値に含まれる誤差の大きさはどうやって見積られるのか?
\(N-1\) で割る「不偏」って何だ? \(N\) で割る「不偏じゃない」のとどう違うのか?

測定値の平均をとる意味

もし無限回の測定ができたとしたら、測定値の度数分布図 (ヒストグラム) はなめらかな曲線になるはず。なぜなら、測定の回数が少なければ、度数分布図に用いるデータの区間 (「ビン (bin)」) の幅を大きくとらないといけないけれど、

測定の回数が十分多ければ、ビンの幅を小さくとってもOK
測定の回数が無限大であれば、ビンの幅を無限小にとれる

からである。このような度数分布を「極限分布」という。しかも多くの場合は、測定値の極限分布は真値を中心とする正規分布になるはずで、

真値に近い値ほど、高い確率で測定される
ある値 \(y_i\) が測定される確率は、真値 \(Y\) からのずれの大きさ \(|y_i-Y|\) によって決まる (対称的: \(y_i-Y\) が正でも負でも同じ)

ことが期待できる (ただし理想的な場合に限られるのだが) 。

\(N\) 回の測定により、\(\{y_1,y_2,\cdots,y_N\}\) の値が得られているものとする。その平均 \(\overline{y}\) は \begin{equation} \overline{y} =\frac{1}{N}\sum_{i=1}^{N}{y_i} =\sum_{i=1}^{N}{y_i}\frac{1}{N} \tag{2.1} \end{equation} である。ここで \(N\to\infty\) の極限をとると、 \begin{equation} \lim_{N\to\infty}\overline{y} =\lim_{N\to\infty}\sum_{i=1}^{N}{y_i}\frac{1}{N} =\int_{-\infty}^{\infty}yG(y)dy =Y \tag{2.33} \end{equation} 即ち、多数の測定値の平均をとれば、その極限値は真値になる。あるいは、測定値の平均値 \(\overline{y}\) は、真値 \(Y\) の最良推定値である。「テストの点数」にたとえていえば、こんな感じか。

「クラスの平均点」も「学年全体の平均点」のどちらも「全国平均点」に近いが、
「クラスの平均点」よりも「学年全体平均点」のほうが「全国平均点」に近い

ただし \(\overline{y}\not=Y\) であることに注意。 有限の測定回数から求めた平均値 \(\overline{y}\) はあくまでも「真値 \(Y\) の推定値」でしかない。

「クラスの平均点」も「学年全体の平均点」のどちらも「全国平均点」と同じではない

「\(N-1\) で割る」「不偏」の意味

理想的には、測定値のばらつきを見積るためには、「測定値の平均 \(\overline{y}\) からのずれ」ではなく、「真値 \(Y\) からのずれ」を用いたい。とはいうものの、無限回の測定ができない以上、\(Y\) を知ることはできない。以下では、どうにかして「真値 \(Y\) からのずれ」を推定することを考える。

「\(Y\) からのずれ」ではかった分散を \({\sigma_Y}^2\) と書くと \begin{align} {\sigma_Y}^2& \equiv\frac{1}{N}\sum_{i=1}^{N}(y_i-Y)^2 \notag\\& =\frac{1}{N}\sum_{i=1}^{N}(y_i-\overline{y})^2 +(\overline{y}-Y)^2 \tag{2.34} \end{align} ここで式(2.34)の右辺第1項は、\(\overline{y}\) からのずれではかった「不偏でない」分散 \({\sigma_y}^2\) そのもの。 \((\overline{y}-Y)^2\ge0\) だから、\({\sigma_Y}^2\) が \({\sigma_y}^2\) より小さくなることは決してない。

では、\(\overline{y}\) と \(Y\) のずれはどれだけか? \begin{align} (\overline{y}-Y)^2& =\left[\frac{1}{N}\sum_{i=1}^{N}{y_i}-Y\right]^2 =\frac{1}{N^2}\left[\sum_{i=1}^{N}({y_i}-Y)\right]^2 \notag\\& \simeq\frac{1}{N^2}\sum_{i=1}^{N}({y_i}-Y)^2 \notag\\& =\frac{1}{N}{\sigma_Y}^2 \tag{2.35} \end{align} ただし式(2.35)は、誤差 \(y_i-Y\) の分布が対称的であるという仮定のもとで、近似的にのみ成り立っていることに注意。

式(2.34)と(2.35)を合わせると \begin{equation} {\sigma_Y}^2 =\frac{1}{N}\sum_{i=1}^{N}(y_i-\overline{y})^2 +\frac{1}{N}{\sigma_Y}^2 \tag{2.36} \end{equation} さらにこれを \({\sigma_Y}^2\) について解くと \begin{equation} {\sigma_Y}^2=\frac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2 \tag{2.37} \end{equation} 即ち、「測定値の平均 \(\overline{y}\) からのずれ」を使う場合には、「\(N-1\) で割る」流儀で計算することで、「真値 \(Y\) からのずれ」を見積ることができる。これが「不偏 (unbiased)」という (だいたいの) 意味である。

測定値に含まれる誤差の見積り

式(2.35)を書き直すと、真の値 \(Y\) と測定値の平均値 \(\overline{y}\) のずれの大きさは \begin{equation} \overline{y}-Y=\pm\frac{\sigma_Y}{\sqrt{N}} \tag{2.38} \end{equation} と書くことができる。さらにこれから、 \begin{equation} \sigma_\text{a}\equiv\frac{\sigma_Y}{\sqrt{N}} =\frac{1}{\sqrt{N}}\sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2} \tag{2.40} \end{equation} とおくと、これは \(N\) 個の測定値の平均値 \(\overline{y}\) に含まれる誤差の大きさのめやす を与える。この \(\sigma_\text{a}\) を「平均値の標準偏差 (Standard Deviation of Mean)」とか「標準誤差 (Standard Error)」などという。

ということで「誤差論」の理論に真面目に従うならば、測定結果は「平均値」\(\overline{y}\) と「平均値の標準偏差」\(\sigma_\text{a}\) (単なる標準偏差 \(\sigma_y\) でも \(\sigma_Y\) でもない) を用いて \begin{equation} y=\overline{y}\pm\sigma_\text{a} \tag{2.41} \end{equation} と表わすべきだ、ということになっている。