平均・分散・標準偏差
テキスト第1章に沿って進める。平均
- 英語では average とか mean とか。
- いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。 その平均値を \(\overline{y}\) とかくと、 \begin{equation} \overline{y}\equiv\frac{\text{データの値の総和}}{\text{データの数}} =\frac{y_1+y_2+\cdots+y_{N-1}+y_N}{N} =\frac{1}{N}\sum_{i=1}^{N}{y_i} \tag{1.1} \end{equation}
-  「平均」の意味: 「平らに均す」
      データの「山」や「谷」をならして一定にする。
      その意味を数式から理解する。
      
 式(1.1)を書き直すと \[ 0=\frac{1}{N}\sum_{i=1}^N(y_i-\overline{y}) \tag{1.3} \] すなわち、個々のデータと平均値からのずれ \((y_i-\overline{y})\) の総和が0
分散・標準偏差
平均値が同じデータであっても、性質が同じだとは限らない。 その違いを数字で表わす指標の例が分散・標準偏差。
- 分散は英語で variance、標準偏差は英語で standard deviation。 分散の平方根をとったものが標準偏差。
- いま \(N\) 個のデータ \(\{y_1,y_2,\cdots,y_N\}\) があるとする。 その分散を \({\sigma_y}^2\)、標準偏差を \({\sigma_y}\) とかくと、 \begin{align} {\sigma_y}^2&\equiv\frac{(y_1-\overline{y})^2+(y_2-\overline{y})^2+\cdots+(y_{N-1}-\overline{y})^2+(y_N-\overline{y})^2}{N}\notag\\ &=\frac{1}{N}\sum_{i=1}^{N}(y_i-\overline{y})^2 \tag{1.5} \end{align} すなわち「分散」とは「平均からの差の2乗の平均」。 式(1.3)と見た目がよく似ているけれど、その意味が大きく違うことに注意。
-  「分散」の意味
      
 分子は、個々のデータと平均値からのずれの大きさ \((y_i-\overline{y})^2\) の総和をとったもの。 すなわち分散とは、個々のデータが平均値からどれだけ「ばらけて」分布しているかを表す指標。
「分散」のもう1つの計算式
- (1.5) 式を変形して、「分散」のもう1つの計算式を導いてみると、 \[ {\sigma_y}^2 =\frac{1}{N}\sum_{i=1}^{N}y_i^2-(\overline{y})^2 =(\overline{y^2})-(\overline{y})^2 \tag{1.7} \] すなわち(1.7)式では、「分散」は「2乗の平均-平均の2乗」で求まっている。
-  ただし実際に分散を求める際には、(1.5)式と(1.7)式の使い分けに注意。
      -  プログラミングで求める場合には (1.7) 式
	     
 平均値 \(\overline{y}\) が事前に求まっていなくても、分散\({\sigma_y}^2\)を求めることができる。
-  手計算で求める場合には (1.5) 式
	     
 (1.7)式と比べて、正確な値が求まりやすい。
 
 例えば、5枚の1円玉の重さを測ったところ、得られた結果が表1.2 (右の表も参照) のようであったとする。 分散を(1.7)式で計算しようとする際に、もし何らかの理由 (計算の手抜き? 有効数字が不十分な設定?) で、\(\overline{(y^2)}-(\overline{y})^2\approx0\) などとしてしまったら、「分散が0」??1円玉の重さを測ってみた例。単位は [g] 0.996 1.006 0.994 1.001 1.003 
-  プログラミングで求める場合には (1.7) 式
	     
分散・標準偏差に関する補足
「\(N\) で割る」流儀と「\(N-1\) で割る」流儀について。-  この授業では「\(N\)で割る」流儀で分散 \({\sigma_y}^2\) や標準偏差 \({\sigma_y}\) を定義したが、世の中には「\(N-1\)で割る」流儀もある。
       \begin{equation}
	{\sigma_y}^2\equiv\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2
	,\quad
	{\sigma_y}\equiv\sqrt{\dfrac{1}{N-1}\sum_{i=1}^{N}(y_i-\overline{y})^2}
	\tag{1.15}
       \end{equation}
       「\(N-1\) で割る」流儀で定義されたものを
       「不偏分散 (unbiased variance)」や
       「不偏標準偏差 (unbiased standard deviation)」という。
       「ふへん」の漢字表記に注意 (「偏りがない」の意味)。
      
 同様に「\(N\)で割る」流儀で定義されたものを「標本分散 (sample variance)」や 「標本標準偏差」ということもある (けど、本によって名称はまちまち)。
-  統計学の理論に真面目に従うならば、「\(N-1\)で割る」ほうが好ましい。
      (もし \(N=1\) だったら、そもそも「分散」など意味がなくなる!)
      
 しかしこの授業では簡単のため (+この先の話の都合上)、「\(N\)で割る」流儀を用いることにする。
- データ数 \(N\) が大きければ、どっちの流儀でも大して違いはないが、\(N\) が小さいときにはその差は大きい。
- 一般的な表計算ソフト (excel とか) の機能で普通に「分散」や「標準偏差」を計算させようとすると、「\(N-1\)で割る」流儀で計算されるはず。