分散と標準偏差、偏差値

分散と標準偏差、偏差値

分散と標準偏差、偏差値

 この記事ではデータのバラつき具合を表す分散と標準偏差、そして偏差値について解説します。最初に必要なモジュールをまとめてインポートして、numpy.set_printoptions() で表示形式を設定しておきます。

# In[1]

# モジュールをインポート
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import zscore

# 要素は小数点以下3桁まで表示
# 10要素を超える配列は省略表示
# 省略する場合は先頭と末尾に5要素を表示
np.set_printoptions(precision=3, threshold=10, edgeitems=5)

 数学の模擬試験が実施されたと仮定して、1000 人分の得点データを作成します (正規分布乱数を用いて生成される仮想データですが、今の段階では意味を深く考えないでください。詳細については正規分布の記事で説明します)。

# In[2]

# 数学の模擬試験の得点データの生成
np.random.seed(0)
x = np.random.normal(63, 15, 1000)
data = x.astype(np.int64)
data[data < 0] = 0
data[data > 100] = 100

 data には 1000 人の得点分布が格納されています。

# In[3]

# dataの中身を表示
print(data)
[89 69 77 96 91 ... 69 60 64 45 57]

 set_printoptions() で大きなデータは省略表示されるように設定してあるので、すべてのデータは見られません。敢えて設定を変えれば確認できますが、1000 個の数字の羅列を眺めても分布の特徴は掴めません。そこで Matplotlib を使って、得点分布をヒストグラムで表してデータの概観を把握することにします。

# In[4]

# FigureとAxes
fig = plt.figure(figsize=(5, 5))
ax = fig.add_subplot(111)

# 軸ラベルと軸範囲
ax.set_xlabel("Score", fontsize = 15)
ax.set_ylabel("Frequency", fontsize = 15)
ax.set_xlim(0, 100)

# ヒストグラムを描画
ax.hist(data, range=(0,100), color = "blue")

# グラフを描画
plt.show()

 [Python] 数学の模擬試験の得点分布のヒストグラム

 ヒストグラムを眺めると、40 ~ 80 点の範囲に大多数が収まっていることがわかります。以下のコードを実行すると、この範囲内にある人数が 827人であることを確認できます。

# In[5]

# 40点以上80点以下の範囲にある人数をカウント
x = np.count_nonzero(data[(40 <= data) & (data <= 80)])

print(x)
827

 100 点をとった人はいるでしょうか?

# In[6]

# 100点をとった人数をカウント
x = np.count_nonzero(data[data==100])

print(x)
1

 満点が 4 人いました。逆に 0 点だった人はいるでしょうか?

# In[7]

# 0点をとった人数をカウント
x = np.count_nonzero(data[data==0])

print(x)
0

 0 点をとった人はいないようです。numpy.min() を使って調べると最低点は 17 点であることがわかります。いずれにしても極端に低い点数や高い点数をとる人、すなわち平均値から遠く離れた人の割合が少ないことは、ヒストグラムからも一目瞭然です。
 

分散 (variance)

 とはいえ、平均値に近いところにどれだけの人数が集中しているのか (逆に言えば平均値から遠いところにある人数がどの程度まばらになるか) はデータの種類ごとに異なるので、バラつきの程度を表す指標があると便利です。

 そこで、与えられたデータ $x_1,\ x_2,\ ...,\ x_n$ の平均値が $\mu$ であるとき、データの 分散 (variance) とよばれる量を次式で定義します。
 
\[\sigma^2
=\frac{(x_1-\mu)^2+(x_2-\mu)^2+\cdots+(x_n-\mu)^2}{n}
=\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}\tag{1}\]
 平方和 (2乗和) で定義されるので、分散は常に正の値をとります。
 平均値から大きく離れたデータが多いほど分散の値が大きくなります。逆にデータ全体が平均値付近に集中している傾向にあれば分散は小さくなります。

 numpy.mean() で得点の平均値を計算してみましょう。

# In[8]

# 得点の平均値
data_mean = np.mean(data)

print("{:.3f}".format(data_mean))
61.823

 分散は numpy.var() にデータ (配列) とデータの平均値を渡して計算できます。

# In[9]

# 得点の分散
data_var = np.var(data)

print("{:.3f}".format(data_var))
219.534

 

標準偏差 (standard deviation)

 分散は元のデータの 2 乗のオーダーとなってしまうので、バラつきの程度が実感しにくいという欠点があります。先ほどの例では分散が 219.534 であることがわかりましたが、100 点満点の試験を考えているので、バラつきの程度を直感的に把握できません。そこで分散の平方根をとった 標準偏差 (standard deviation) とよばれる値
 
\[\sigma=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}}\tag{2}\]
を定義します。標準偏差のオーダーは元のデータと同じ程度なので、直感的にバラつきの程度を把握しやすくなります。データ分析や機械学習の分野では、どちらかといえば分散よりも標準偏差のほうが好んで使われます。

 標準偏差は numpy.std() を使って計算できます。

# In[10]

# 得点の標準偏差
data_std = np.std(data)

print("{:.3f}".format(data_std))
14.817

 得点分布の標準偏差は 14.817 です。
 この値は、どの程度のバラつきを表しているのでしょうか?
 一般に、試験の得点分布や人間の身長分布などは正規分布で近似できて、正規分布では全体の約 68% が $\mu-\sigma$ と $\mu+\sigma$ の範囲に収まることが知られています。確めてみましょう。

# in[11]

# 平均値-標準偏差
a = data_mean - data_std

# 平均値+標準偏差
b = data_mean + data_std

# [a,b]の範囲にある人数をカウント
x = np.count_nonzero(data[(a <= data) & (data <= b)])

print(x)
677

 1000 人のうち 677 人が平均点から ±14.817 の範囲に収まっています。
 

偏差値 (standard score)

 かつて受験生だった人、あるいは現在の受験生の皆さんは模試の結果を点数ではなく、偏差値に着目していたはずです。点数そのものは試験の難易度によって変化するので、全体の中の順位を示す指標としては意味がないからです。

 受験生を一喜一憂させる 偏差値 (standard score) は、得点 $x_i$ と平均値 $\mu$、そして標準偏差 $\sigma$ を使って次のように定義されます。
 
\[T_i=50+10\ \frac{x_i-\mu}{\sigma}\tag{3}\]
 50 を基準値として、点数が平均値より 1 標準偏差だけ高く (低く) なるごとに 10 ポイントが加算 (減算) される仕組みになっています。得点が 45, 90 であった受験生の偏差値を計算してみましょう。

# In[12]

# 45点の偏差値を計算
t_45 = 50 + 10 * (45 - data_mean) / data_std

# 90点の偏差値を計算
t_90 = 50 + 10 * (90 - data_mean) / data_std

print("45点をとった受験生の偏差値: {:.3f}".format(t_45))
print("90点をとった受験生の偏差値: {:.3f}".format(t_90))
45点をとった受験生の偏差値: 38.646
90点をとった受験生の偏差値: 69.017

 

データの標準化 (standardization)

 偏差値の定義式の中で
 
\[\frac{x_i-\mu}{\sigma}\]
という操作を行ないました。分子と分母は同じ単位なので無名数 (次元をもたない数) です。データに含まれるすべての値について、平均値との差分をとってから標準偏差で割る操作を データの標準化 (standardization) とよび、標準化されたデータは z-score とよばれます。
 
\[z=\frac{x-\mu}{\sigma}\tag{4}\]
 scipy.stats.zscore() にデータ (配列) をわたすと、データが標準化されます。

# In[13]

# データを標準化
z = zscore(data)

print(z)
[ 1.834  0.484  1.024  2.307  1.969 ...  0.484 -0.123  0.147 -1.135 -0.326]

 配列 z に 10 を掛けて 50 を加えれば、すべての受験生の偏差値を格納したデータを得ます。

# In[14]

# 全データの偏差値を計算
data_t = 50 + 10 * z

print(data_t)
[68.342 54.844 60.243 73.067 69.692 ... 54.844 48.77  51.469 38.646 46.745]

 z-score の平均値は常に 0 です。
 ただし、数値計算では若干の誤差が生じます

# In[15]

# 標準化されたデータの平均値
z_mean = np.mean(z)

print(z_mean)
-2.3092638912203255e-17

 z-score の標準偏差は 1 となります。

# In[16]

# 標準化されたデータの標準偏差
z_std = np.std(z)

print(z_std)
1.0

 

不偏分散と標本標準偏差

 $n$ の代わりに $n-1$ で除した分散を不偏分散 (unbiased variance) とよびます:
 
\[\nu^2=\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n-1}\tag{5}\]
 一般に不偏分散は標本 (母集団の一部を切り出した集団) から母集団の分散を推測するために用いられます。あくまで推定値であって、必ずしも一致するわけではありませんが、普通の分散よりも不偏分散のほうが推定精度が高くなることが知られています。

 例として、模擬試験の得点データからランダムに 100 個のデータを取り出して標本としてみます。

# In[17]

np.random.seed(1)

# 母集団から100個のデータをランダムに選択
sample = np.random.choice(data, 100)

print(sample)
[81 74 77 80 63 ... 35 53 42 52 68]

 numpy.var() で ddof=1 を指定すると不偏分散を返します。

# In[18]

# 不偏分散を計算
sample_uvar = np.var(sample, ddof=1)

print("{:.3f}".format(sample_uvar))
223.987

 不偏分散の平方根を標本標準偏差とよびます。
 
\[\nu=\sqrt{\frac{\sum_{i=1}^{n-1}(x_i-\mu)^2}{n}}\tag{6}\]
 ただし、標本標準偏差は標本のバラつきの程度を示すもので、母集団の標準偏差の推定量ではありません。numpy.std() で ddof=1 を指定すると標本標準偏差を返します。

# In[19]

# 標本標準偏差を計算
sample_ustd = np.std(sample, ddof=1)

print("{:.3f}".format(sample_ustd))
14.966

 

statistics.pvariance()

 statistics.pvariance() はデータの母分散 (母集団の分散) を返します。

statistics.pvariance(data, mu=None)

 第 2 引数 mu には data の平均値を渡します。
 この引数を省略した場合、平均値は自動計算されます。

# PYTHON_STATISTICS_PVARIANCE

import statistics

data = [90,  2, 48,  7, 41, 97,  3, 58, 65, 82]

# 母分散を計算
pvar = statistics.pvariance(data)

print("{:.3f}".format(pvar))
1156.410

 

statistics.variance()

 statistics.variance() はデータの不偏分散を返します。

statistics.variance(data, xbar=None)

 xbar にはデータの平均値を渡します。この引数が省略されるか None が指定された場合、平均値は自動計算されます。

# PYTHON_STATISTICS_VARIANCE

import statistics

data = [81, 34, 85, 76, 77,  6, 83, 66, 91, 62]

# 不偏分散を計算
var = statistics.variance(data)

print("{:.3f}".format(var))
706.767

 

statistics.pstdev()

 statistics.pstdev() はデータの母標準偏差 (母分散の平方根) を返します。

statistics.pstdev(data, mu=None)

 mu には data の平均値を渡します。
 この引数を省略した場合、平均値は自動計算されます。

# PYTHON_STATISTICS_PSTDEV

import statistics

data = [39,  8, 10, 39, 75, 86, 33, 82, 86, 20]

# 母標準偏差を計算
pstdev = statistics.pstdev(data)

print("{:.3f}".format(pstdev))
29.979

 

statistics.stdev()

 statistics.stdev() はデータの標本標準偏差 (不偏分散の平方根) を返します。

statistics.stdev(data, xbar=None)

 xbar には data の平均値を渡します。
 この引数を省略すると平均値は自動計算されます。

# PYTHON_STATISTICS_STDEV

import statistics

data = [50, 64, 38, 84, 81, 36, 33, 13, 47, 34]

# 母標準偏差を計算
stdev = statistics.stdev(data)

print("{:.3f}".format(stdev))
22.450

 

numpy.var()

 numpy.var() は配列を受け取り、指定軸に沿ったデータの分散 (variance) を返します。

numpy.var(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<no value>)

 たとえば、次のような 2 次元配列に格納されたデータがあるとします。

# PYTHON_NUMPY_VARIANCE-1

import numpy as np

# 2次元配列を用意
data = np.array([[ 86,  75,  98],
                 [ 93, 109, 112],
                 [106,  96,  75]])

 axis を省略した場合は全要素の分散を計算します。

# PYTHON_NUMPY_VARIANCE-2

# 全要素を対象に分散を計算
var = np.var(data)

print("{:.3f}".format(var))
166.469

 axis=0 を指定した場合は列ごとに分散を計算します。

# PYTHON_NUMPY_VARIANCE-3

# 列ごとに分散を計算
var = np.var(data, axis=0)

print(var)
[ 68.667 196.222 232.667]

 axis=1 を指定すると、行ごとに分散を計算します。

# PYTHON_NUMPY_VARIANCE-4

# 行ごとに分散を計算
# 次元は保持する
var = np.var(data, axis=1, keepdims=True)

print(var)
[[ 88.222]
 [ 69.556]
 [166.889]]

 データに nan が含まれていると、numpy.var() は nan を返します。欠損値を無視して処理したい場合は次節で説明する numpy.nanvar() を使ってください。
 

numpy.nanvar()

 numpy.nanvar() は配列を受け取って、指定軸に沿って分散を計算します。

numpy.nanvar(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<no value>)

 使い方は numpy.var() と同じですが、配列に nan が含まれていても、nan を除外して処理を実行します。

# PYTHON_NUMPY_NANVAR

import numpy as np

# 2次元配列を用意
data = np.array([[97,  95,     123, 112],
                 [75,  np.nan, 116, 106],
                 [80,  78,     134, np.nan]])

# 行ごとに分散を計算
# nanは処理対象に含めない
var = np.nanvar(data, axis=1, keepdims=True)

print(var)
[[131.188]
 [304.667]
 [672.889]]

 

numpy.std()

 numpy.std() は配列を受け取って指定軸に沿った分散を返します (軸を指定しなければ全要素について分散を計算します)。

np.std(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<no value>)

 デフォルト設定では戻り値は 1 次元配列ですが、keepdims に True を渡せば元の配列の次元を保持します。たとえば、a に 2 次元配列を渡して axis=1, keepdims=True を指定すると、行ごとに分散を計算して 2 次元配列を返します。

# PYTHON_NUMPY_STD

import numpy as np

# 2次元配列を用意
data = np.array([[135, 137,  93, 121],
                 [ 71, 117,  98, 111],
                 [ 80,  81,  65, 101]])

# 行ごとに分散を計算して次元は保持する
std = np.nanstd(data, axis=1, keepdims=True)

print(std)
[[17.571]
 [17.697]
 [12.794]]

 データに nan が含まれていると、numpy.nan() は処理不能と判断して nan を返します。nan を無視して処理を実行したい場合は numpy.nanstd() を使ってください。
 

numpy.nanstd()

 numpy.nanstd() は配列を受け取って、指定軸に沿った要素の標準偏差を返します (軸を指定しない場合は全要素について標準偏差を計算します)。

numpy.nanstd(a, axis=None, dtype=None, out=None, ddof=0,
keepdims=<no value>)

 配列に nan が含まれていても、nan を無視して処理します。
 デフォルト設定では戻り値は 1 次元配列です (受け取った配列の次元に関わらずフラットな配列を返します)。keepdims=True を指定すると元の配列の次元を保持します。たとえば第 1 引数に 2 次元配列を渡して axis=1, keepdims=True を指定すると、行ごとの標準偏差を格納した 2 次元配列を返します。

# PYTHON_NUMPY_NANSTD

import numpy as np

# 2次元配列を定義
data = np.array([[ 59, np.nan,  86,   105],
                 [105,    141,  99, np.nan],
                 [ 84, np.nan, 108,     71]])

# 行ごとに分散を計算して次元は保持する
std = np.nanstd(data, axis=1, keepdims=True)

print(std)

#print("{:.3f}".format(var))
[[18.874]
 [18.547]
 [15.326]]

 

scipy.stats.zscore()

 scipy.stats.zscore() はデータを標準化して z-score を返します。

scipy.stats.zscore(a, axis=0, ddof=0, nan_policy='propagate')

 z-score とは、個々のデータから平均値を引いて、標準偏差で割った値として定義されます。
 
\[z=\frac{x-\mathrm{x_{mean}}}{\mathrm{x_{std}}}\tag{5}\]
 標準化は axis で指定した軸に沿って実行されます。
 axis=0 を指定すれば x は配列 a の列に沿うデータであり、axis=1 を指定すれば x は配列 a の行に沿うデータとなります。

# PYTHON_NUMPY_ZSCORE

import numpy as np
from scipy.stats import zscore

# 2次元配列を用意
data = np.array([[104,  83, 107,  93],
                 [105, 108, 133, 114],
                 [122,  98, 138,  46]])

# 行ごとにデータを標準化
z = zscore(data, axis=1)

print(z)
[[ 0.763 -1.448  1.079 -0.395]
 [-0.919 -0.643  1.654 -0.092]
 [ 0.603 -0.086  1.063 -1.58 ]]