非線形最小二乗法

非線形最小二乗法^[1]^[2]（ひせんけいさいしょうにじょうほう、英: non-linear least squares）とは、観測データに対するカーブフィッティング手法の一つであり、最小二乗法を非線形なモデル関数に拡張したものである。非線形最小二乗法は、未知パラメータ（フィッティングパラメータ）を非線形の形で持つ関数モデルを用いて、観測データを記述すること、すなわち、データに最も当てはまりの良い^{[注 1]}フィッティングパラメータを推定することを目的とする。

最小二乗法の主張

$m$ 個のデータポイント $(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})$ からなるセットに対し、 $n$ 個^{[注 2]}のフィッティングパラメータ $\beta _{1},\beta _{2},\dots ,\beta _{n}$ を持つモデル関数

y=f(x,{\boldsymbol {\beta }})

(1-1)

をあてはめる場合を考える。ここで、それぞれのデータ $(x_{m},y_{m})$ において、 $x_{i}$ は説明変数とし、 $y_{i}$ は目的変数とする。 ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})$ は、前記の $n$ 個のフィッティングパラメータ $\beta _{i}$ からなる実数ベクトルとする。

また、以下で定まる残差

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})\qquad (i=1,2,\dots ,m)

(1-2)

のそれぞれは、それぞれ、期待値 $0$ 、標準偏差 $\sigma _{i}$ の正規分布に従うとする。また、話を簡単にするため、 $x_{i}$ それぞれは、いずれも誤差を持たないとする。

このとき、考えるべき問題は、もっとも当てはまりのよい ${\boldsymbol {\beta }}$ を見つけ出すことである。

非線形最小二乗法では、以下の残差平方和（より正確に言えば、標準化された残差平方和）

S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\frac {r_{i}^{2}}{2{\sigma }_{i}^{2}}}=\sum _{i=1}^{m}{\frac {({y}_{i}-f({x}_{i},{\boldsymbol {\beta }}))^{2}}{2{\sigma }_{i}^{2}}}

(1-3)

を最小とするような ${\boldsymbol {\beta }}$ が、もっとも当てはまりの良い $f$ を与えるフィッティングパラメータと考える^[1]^[2]。

この考え方は、数多ある考え方の一つに過ぎない。他の考え方としては、例えば

$\sum _{i=1}^{m}|{r}_{i}|$ を最小にする考え方
$\sum _{i=1}^{m}{\frac {r_{i}^{2}}{2}}$ を最小とする考え方（単に各データのバラつきが同じと勝手に仮定しただけ）。
データ、モデル関数共に何らかの変換（例えば対数変換）を加えたうえで、最小二乗法をする考え方。
カイ二乗値を最小にする考え方^[3]。

等があり得る。これらの考え方で”最適”となったフッティングパラメータは、最小二乗法では”最適”とは限らない^{[注 3]}。

ただし、最小二乗法の考え方は、確率論的に尤もらしさが裏付けられている^[2]。このことについては、次節にて論じる。

最小二乗法の尤もらしさ

最小二乗法は、正規分布に対応したフィッティングパラメータの最尤推定法である^[4]。ここでは最小二乗法の尤もらしさについて、確率論を援用して検討する^[2]。すなわち、残差 ${\boldsymbol {r_{i}}}$ それぞれが、期待値 ${\boldsymbol {0}}$ 、標準偏差 ${\boldsymbol {\sigma _{i}}}$ の正規分布に従う確率変数であり、かつ、 $r_{i}$ からなる確率変数の族は、独立試行と考え、確率論を援用する。

仮定より、残差 $r_{i}$ それぞれは、いずれも、期待値 $0$ 、標準偏差 $\sigma _{i}$ の正規分布に従うため、あるデータセット $(x_{i},y_{i})$ において、その測定値が $y_{i}$ となる確率 $P(y_{i})$ は、

{P}({y}_{i})={\frac {1}{\sigma _{i}{\sqrt {2\pi }}}}\exp \left(-{\frac {{r}_{i}^{2}}{2\sigma _{i}^{2}}}\right)

　(2-1)

となる。

今、データの測定は（数学的に言えば残差 ${\boldsymbol {r_{i}}}$ それぞれが）独立試行と考えられるため、 ${\boldsymbol {m}}$ 個のデータポイントのセット ${\boldsymbol {(x_{1},y_{1}),(x_{2},y_{2}),\ldots ,(x_{m},y_{m})}}$ が得られる確率 ${\boldsymbol {P(y_{1},\ldots ,y_{m})}}$ は、

{\begin{aligned}P(y_{1},\dots ,y_{m})&=\prod _{i=1}^{m}P(y_{i})\\&=\prod _{i=1}^{m}{\frac {1}{\sigma _{i}{\sqrt {2\pi }}}}\exp \left(-{\frac {r_{i}^{2}}{2\sigma _{i}^{2}}}\right)\\&={\frac {1}{\prod _{i=1}^{m}\sigma _{i}({\sqrt {2\pi }})^{m}}}\exp \left(\sum _{i=1}^{m}\left(-{\frac {(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}}{2\sigma _{i}^{2}}}\right)\right)\end{aligned}}

　(2-2)

となる。ここで、 ${\Pi }_{i=1}^{n}$ は、連乗積を表す。

上式において、正規分布の単峰性より、確率 $P(y_{i},\ldots ,y_{m})$ は、

S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\frac {(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}}{2\sigma _{i}^{2}}}

　(2-3)

が最小（最も $0$ に近いとき）において、最大（最尤）となる。すなわち、最尤法の教えるところによれば、このとき、もっとも当てはまりがよいと考えるのが妥当だろうということになる。

勾配方程式への帰着

我々が考えるべき問題は、標準化された残差平方和

S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\frac {r_{i}^{2}}{2\sigma _{i}^{2}}}=\sum _{i=1}^{m}{\frac {(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}}{2\sigma _{i}^{2}}}

　(3-1)

を最小とするようなパラメータ ${\boldsymbol {\beta }}$ を見つけることである。

このような ${\boldsymbol {\beta }}$ において、 $S$ の勾配 grad $S$ は $0$ になる（必要条件）。したがって、このような ${\boldsymbol {\beta }}$ は、以下の連立方程式の解となる。

{\frac {\partial S}{\partial \beta _{j}}}=\sum _{i=1}^{m}{\frac {r_{i}}{\sigma _{i}^{2}}}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\quad (j=1,\dots ,n)\qquad (1)

　(3-2)

数値解法

線形の最小二乗法では、式(3-2)は未知パラメータ ${\boldsymbol {\beta }}$ についての連立一次方程式になるため、行列を用いて容易に解くことができるが、非線形最小二乗法では反復解法を用いる必要がある。解法には以下のような方法が知られている^[4]。

最急降下法
ニュートン法
ガウス・ニュートン法
Marquardt法、修正Marquardt法
パウエル（Powell）の最小二乗法、パウエルのハイブリッド法

脚注・参考文献

参考文献

[1]
本間仁; 春日屋伸昌『次元解析・最小二乗法と実験式』コロナ社、1989年。
[2]
T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
Ch6に、非線形最小二乗法の尤もらしさに関する記述が記載されている。
[3]
http://www.hulinks.co.jp/support/kaleida/curvefit.html
[4]
中川徹; 小柳義夫『最小二乗法による実験データ解析』東京大学出版会、1982年、19, 95-124頁。ISBN 4-13-064067-4。

脚注

[1]
実際には、重解が出る場合も多い。
[2]
少なくとも $m>n$ でなければナンセンスとなる。
[3]
無論、例えば一つの特別な状況として、いずれの残差の標準偏差も、全て同じ値σである時、すなわち、 $r_{i}$ それぞれが、期待値 $0$ 、標準偏差 $\sigma$ の正規分布に従う場合には、残差平方和 $S$ から、共通項 $1/(2{\sigma _{i}}^{2})$ がくくりだせる。したがって、この場合には、最小二乗法は、
$\sum _{i=1}^{m}(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}$
を最小とするような ${\boldsymbol {\beta }}$ が、最も当てはまりが良いと考えるのと同等である。

参考文献

脚注

Related Articles