平均・分散・標準偏差
テキスト第1章に沿って進める。平均
- 英語では average とか mean とか。
- いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。 その平均値を \(\overline{y}\) とかくと、 \begin{equation} \overline{y}\equiv\frac{\text{データの値の総和}}{\text{データの数}} =\frac{y_1+y_2+\cdots+y_{N-1}+y_N}{N} =\frac{1}{N}\sum_{i=1}^{N}{y_i} \tag{1.1} \end{equation}
- 「平均」の意味: 「平らに均す」
データの「山」や「谷」をならして一定にする。
その意味を数式から理解する。
式(1.1)を書き直すと \[ 0=\frac{1}{N}\sum_{i=1}^N(y_i-\overline{y}) \tag{1.3} \] すなわち、個々のデータと平均値からのずれ \((y_i-\overline{y})\) の総和が0
分散・標準偏差
平均値が同じデータであっても、性質が同じだとは限らない。 その違いを数字で表わす指標の例が分散・標準偏差。
- 分散は英語で variance、標準偏差は英語で standard deviation。 分散の平方根をとったものが標準偏差。
- いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。 その分散を \({\sigma_y}^2\)、標準偏差を \({\sigma_y}\) とかくと、 \begin{align} {\sigma_y}^2&\equiv\frac{(y_1-\overline{y})^2+(y_2-\overline{y})^2+\cdots+(y_{N-1}-\overline{y})^2+(y_N-\overline{y})^2}{N}\notag\\ &=\frac{1}{N}\sum_{i=1}^{N}(y_i-\overline{y})^2 \tag{1.5} \end{align} すなわち「分散」とは「平均からの差の2乗の平均」。 式(1.3)と見た目がよく似ているけれど、その意味が大きく違うことに注意。
- 「分散」の意味
分子は、個々のデータと平均値からのずれの大きさ \((y_i-\overline{y})^2\) の総和をとったもの。 すなわち分散とは、個々のデータが平均値からどれだけ「ばらけて」分布しているかを表す指標。
「分散」のもう1つの計算式
- (1.5) 式を変形して、「分散」のもう1つの計算式を導いてみると、 \[ {\sigma_y}^2 =\frac{1}{N}\sum_{i=1}^{N}y_i^2-(\overline{y})^2 =(\overline{y^2})-(\overline{y})^2 \tag{1.7} \] すなわち(1.7)式では、「分散」は「2乗の平均-平均の2乗」で求まっている。
- ただし実際に分散を求める際には、(1.5)式と(1.7)式の使い分けに注意。
- プログラミングで求める場合には (1.7) 式
平均値 \(\overline{y}\) が事前に求まっていなくても、分散\({\sigma_y}^2\)を求めることができる。 - 手計算で求める場合には (1.5) 式
(1.7)式と比べて、正確な値が求まりやすい。
1円玉の重さを測ってみた例。単位は [g] 0.996 1.006 0.994 1.001 1.003 - プログラミングで求める場合には (1.7) 式
分散・標準偏差に関する補足
「\(N\) で割る」流儀と「\(N-1\) で割る」流儀について。- この授業では「\(N\)で割る」流儀で分散 \({\sigma_y}^2\) や標準偏差 \({\sigma_y}\) を定義したが、世の中には「\(N-1\)で割る」流儀もある。
\begin{equation}
{\sigma_y}^2\equiv\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2
,\quad
{\sigma_y}\equiv\sqrt{\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2}
\tag{1.15}
\end{equation}
「\(N-1\) で割る」流儀で定義されたものを
「不偏分散 (unbiased variance)」や
「不偏標準偏差 (unbiased standard deviation)」という。
「ふへん」の漢字表記に注意 (「偏りがない」の意味)。
同様に「\(N\)で割る」流儀で定義されたものを「標本分散 (sample variance)」や 「標本標準偏差」ということもある (けど、本によって名称はまちまち)。 - 統計学の理論に真面目に従うならば、「\(N-1\)で割る」ほうが好ましい。
(もし \(N=1\) だったら、そもそも「分散」など意味がなくなる!)
しかしこの授業では簡単のため (+この先の話の都合上)、「\(N\)で割る」流儀を用いることにする。 - データ数 \(N\) が大きければ、どっちの流儀でも大して違いはないが、\(N\) が小さいときにはその差は大きい。
- 一般的な表計算ソフト (excel とか) の機能で普通に「分散」や「標準偏差」を計算させようとすると、「\(N-1\)で割る」流儀で計算されるはず。