情報地球科学 (2024年前学期) 第02回

今回から実践編の開始。

平均・分散・標準偏差

テキスト第1章に沿って進める。

英語では average とか mean とか。
いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。その平均値を \(\overline{y}\) とかくと、 \begin{equation} \overline{y}\equiv\frac{\text{データの値の総和}}{\text{データの数}} =\frac{y_1+y_2+\cdots+y_{N-1}+y_N}{N} =\frac{1}{N}\sum_{i=1}^{N}{y_i} \tag{1.1} \end{equation}
「平均」の意味: 「平らに均す」データの「山」や「谷」をならして一定にする。その意味を数式から理解する。
式(1.1)を書き直すと \[ 0=\frac{1}{N}\sum_{i=1}^N(y_i-\overline{y}) \tag{1.3} \] すなわち、個々のデータと平均値からのずれ \((y_i-\overline{y})\) の総和が0

平均値が同じデータであっても、性質が同じだとは限らない。その違いを数字で表わす指標の例が分散・標準偏差。

分散は英語で variance、標準偏差は英語で standard deviation。分散の平方根をとったものが標準偏差。
いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。その分散を \({\sigma_y}^2\)、標準偏差を \({\sigma_y}\) とかくと、 \begin{align} {\sigma_y}^2&\equiv\frac{(y_1-\overline{y})^2+(y_2-\overline{y})^2+\cdots+(y_{N-1}-\overline{y})^2+(y_N-\overline{y})^2}{N}\notag\\ &=\frac{1}{N}\sum_{i=1}^{N}(y_i-\overline{y})^2 \tag{1.5} \end{align} すなわち「分散」とは「平均からの差の2乗の平均」。式(1.3)と見た目がよく似ているけれど、その意味が大きく違うことに注意。
「分散」の意味
分子は、個々のデータと平均値からのずれの大きさ \((y_i-\overline{y})^2\) の総和をとったもの。すなわち分散とは、個々のデータが平均値からどれだけ「ばらけて」分布しているかを表す指標。

(1.5) 式を変形して、「分散」のもう1つの計算式を導いてみると、 \[ {\sigma_y}^2 =\frac{1}{N}\sum_{i=1}^{N}y_i^2-(\overline{y})^2 =(\overline{y^2})-(\overline{y})^2 \tag{1.7} \] すなわち(1.7)式では、「分散」は「2乗の平均-平均の2乗」で求まっている。
ただし実際に分散を求める際には、(1.5)式と(1.7)式の使い分けに注意。
- プログラミングで求める場合には (1.7) 式
  平均値 \(\overline{y}\) が事前に求まっていなくても、分散\({\sigma_y}^2\)を求めることができる。
- 手計算で求める場合には (1.5) 式
  (1.7)式と比べて、正確な値が求まりやすい。
1円玉の重さを測ってみた例。単位は [g]
0.996 1.006 0.994 1.001 1.003

例えば、5枚の1円玉の重さを測ったところ、得られた結果が表1.2 (右の表も参照) のようであったとする。分散を(1.7)式で計算しようとする際に、もし何らかの理由 (計算の手抜き? 有効数字が不十分な設定?) で、\(\overline{(y^2)}-(\overline{y})^2\approx0\) などとしてしまったら、「分散が0」??

1円玉の重さを測ってみた例。単位は [g]
0.996	1.006	0.994	1.001	1.003

「\(N\) で割る」流儀と「\(N-1\) で割る」流儀について。

この授業では「\(N\)で割る」流儀で分散 \({\sigma_y}^2\) や標準偏差 \({\sigma_y}\) を定義したが、世の中には「\(N-1\)で割る」流儀もある。 \begin{equation} {\sigma_y}^2\equiv\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2 ,\quad {\sigma_y}\equiv\sqrt{\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2} \tag{1.15} \end{equation} 「\(N-1\) で割る」流儀で定義されたものを「不偏分散 (unbiased variance)」や「不偏標準偏差 (unbiased standard deviation)」という。「ふへん」の漢字表記に注意 (「偏りがない」の意味)。
同様に「\(N\)で割る」流儀で定義されたものを「標本分散 (sample variance)」や「標本標準偏差」ということもある (けど、本によって名称はまちまち)。
統計学の理論に真面目に従うならば、「\(N-1\)で割る」ほうが好ましい。 (もし \(N=1\) だったら、そもそも「分散」など意味がなくなる!)
しかしこの授業では簡単のため (+この先の話の都合上)、「\(N\)で割る」流儀を用いることにする。
データ数 \(N\) が大きければ、どっちの流儀でも大して違いはないが、\(N\) が小さいときにはその差は大きい。
一般的な表計算ソフト (excel とか) の機能で普通に「分散」や「標準偏差」を計算させようとすると、「\(N-1\)で割る」流儀で計算されるはず。