この記事では統計分析や機械学習の分野で多用されるガウス関数の定義と性質、正規分布、Python における実装方法、関連するライブラリ等について解説します。
ガウス関数
ガウス関数(Gaussian function)は
で定義される関数です。ガウシアンとよばれることもあります。
# NUMPY_GAUSSIAN_FUNCTION
# In[1]
import numpy as np
import matplotlib.pyplot as plt
# ガウス関数を定義
def gauss(x, a=1, mu=0, sigma=1):
return a * np.exp(-(x - mu)**2 / (2*sigma**2))
# Figureを作成
fig = plt.figure(figsize=(8, 6))
# FigureにAxesを追加
ax = fig.add_subplot(111)
# Axesのタイトルを'Gaussian Function'に設定
ax.set_title("Gaussian Function", fontsize=16)
# 目盛線を表示
ax.grid()
# 軸ラベルを設定
ax.set_xlabel("x", fontsize=14)
ax.set_ylabel("y", fontsize=14)
# 軸範囲を設定
ax.set_xlim([-4, 8])
ax.set_ylim([0, 1.2])
# -4~8まで0.1刻みの数値の配列
x = np.arange(-4, 8, 0.1)
# グラフに描く関数
f1 = gauss(x)
f2 = gauss(x, a=0.5, mu=2, sigma=2)
# Axesにガウス関数を描画
ax.plot(x, f1, color="red", label="a=1.0, μ=0, σ=1")
ax.plot(x, f2, color="blue", label="a=0.5, μ=2, σ=2")
# 凡例の表示
ax.legend(fontsize=14)
コードの中で定義した gauss() は x のみを必須引数とし、a, mu, sigma はそれぞれ
のグラフです。青いラインは
のグラフです。赤いラインと比較すると、ピーク値は半分 (
ガウス積分
ガウス関数
SymPy をインポートして確認してみましょう。
# SYMPY_GAUSSIAN_INTEGRAL
# In[1]
import sympy
# 記号x,cを定義
x = sympy.Symbol('x')
c = sympy.Symbol('c', positive=True)
# 無限大記号を定義
oo = sympy.oo
# ガウス関数
f = sympy.exp(-c*x**2)
# ガウス積分
g = sympy.integrate(f, (x, -oo, oo))
print(g)
# sqrt(pi)/sqrt(c)
正規分布
式 (1) で表される一般的なガウス関数
を無限区間で積分してみます。ガウス関数は左右対称形なので、
を考えればよいことになります。
とおいて式 (3) を積分すると、ガウス積分の公式より
となります。この積分値が
となります。このような形で規格化されたガウス関数
のことを正規分布 (normal distribution) とよびます。このとき、
ガウス関数の重ね合わせ
ガウス関数 は機械学習において基底関数として用いられることがあります。ガウス関数を適切に重ね合わせると、たとえば人間の平均身長や国の人口などの成長曲線を近似することができます。以下のサンプルコードは、中心位置
# NUMPY_GAUSSIAN_SUPERPOSITION
# In[1]
import numpy as np
import matplotlib.pyplot as plt
# ガウス関数を定義
def gauss(x, a=1, mu=0, sigma=1):
return a * np.exp(-(x - mu)**2 / (2*sigma**2))
# Figureを作成
fig = plt.figure(figsize=(8, 6))
# FigureにAxesを追加
ax = fig.add_subplot(111)
# Axesのタイトルを'Gaussian Function'に設定
ax.set_title("Gaussian Function", fontsize=16)
# 目盛線を表示
ax.grid()
# 軸ラベルを設定
ax.set_xlabel("x", fontsize=14)
ax.set_ylabel("y", fontsize=14)
# 軸範囲を設定
ax.set_xlim([-3, 3])
ax.set_ylim([0, 3])
# -3~3まで0.1刻みの数値の配列
x = np.arange(-3, 3, 0.1)
# 関数fの初期値
f = 0
# 中心位置をずらしながら重ね合わせる
for k in range(5):
g = gauss(x, mu=k)
ax.plot(x, g, label="φ{}".format(k))
f += g
# Axesに重ね合わせたガウス関数を描画
ax.plot(x, f, color="black", label="φ0+φ1+φ2+φ3+φ4")
# 凡例を表示
ax.legend()
# ファイルを保存
plt.savefig("gauss.png", bbox_inches="tight")
2変数ガウス関数
2変数のガウス関数 は
で表されます。
全区間で積分したときに
となります。
によって計算されます。規格化された 2 変数ガウス関数
は 2 変数正規分布の確率密度関数を表しています。2 変数正規分布は scipy.stats の multivariate_normal.pdf() で計算できます。
# SCIPY_MULTIVARIATE_NORMAL_PDF
# In[1]
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.stats import multivariate_normal
# FigureとAxesの設定
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')
ax.set_xlim(-6.0, 6.0)
ax.set_ylim(-6.0, 6.0)
ax.set_zlim(0.0, 0.14)
ax.set_xlabel("x", size=16)
ax.set_ylabel("y", size=16)
ax.set_zlabel("z", size=16)
ax.view_init(elev=45, azim=45)
# 格子点を作成
n = 128
x = np.linspace(-6, 6, n)
y = np.linspace(-6, 6, n)
X, Y = np.meshgrid(x, y)
pos = np.dstack((X, Y))
# 2変数ガウス関数
mu = np.array([0.5, 1.0])
sigma = np.array([[1.0, -0.2],[-0.2, 1.0]])
Z = multivariate_normal(mu, sigma).pdf(pos)
# 2変数ガウス関数を3次元プロット
ax.plot_surface(X, Y, Z, cmap="coolwarm",
cstride=1, rstride=1)
plt.show()
コメント
SCIPY_MULTIVARIATE_NORMAL_PDF プログラムで、2 つの質問がありますのでよろしくお願いいたします。
1. (10) 式の σ_12 は 2 変数の相関を表して同じ値を指定するようですが、プログラムで 0.2 と -0.2 になっているのは誤植でしょうか。
2. pos に X, Y ではなく、np.dstack(X, Y) としなければならないのは何故でしょうか。
1. (10)式は誤植です。申し訳ありません。修正しておきました。m(_ _)m
2. 確率密度関数を得る pdf() メソッドが複数の配列を受け取れないので、np.dstack(X, Y) で一つにまとめて渡しています。
ご回答ありがとうございました。
np.dstack(X, Y) は np.dstack((X, Y)) の誤りでした。
2 変数の pdf の計算には X, Y から作る格子点の座標が必要だが、X, Y という二つの配列をそのまま渡せないので dstack で連結して渡しているということですね。ところでマニュアルでは以下のような説明がありましたが、後半の意味がよくわかりませんでした。
The input quantiles can be any shape of array, as long as the last axis labels the components.
ご教示いただけるとありがたいです。
直訳すると意味がわかりづらくなるので、かなり意訳しますが、「最後の軸でデータが区別できるようになっていれば、どんな形の配列を渡してもいいですよ」という意味です。pdf() には一つの配列しか渡せないので、たとえば二変量確率密度を計算する場合は、どの部分が X に、またどの部分が Y に対応するデータなのか区別する必要があります。それで、このメソッドは「最後の軸、つまりネスト最深部の軸に沿って、データを区分する」というルールを設けています。このような理由で、最後の軸に沿って配列を連結する np.dstack() で結合させたデータを pdf() に渡しています。
ご回答ありがとうございました。私が調べた中で、X, Y を flatten( ) メソッドで 1 次元配列に変換して、さらにnp.stack( axis=1 ) でそれらを連結してから pdf( ) に渡している例があったのですが、それでもOKだった理由がわかりました。
間違えました。(10)式ではなく、SCIPY_MULTIVARIATE_NORMAL_PDF が誤植です。0.2 → -0.2 です。申し訳ないです。