破滅的忘却

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

破滅的忘却（破局的忘却）は、人工ニューラルネットワークにおいて、新しい情報を学習した際に、以前に学習した情報を急激かつ完全に忘れてしまう傾向を指す^[1]^[2]。

ニューラルネットワークは、コネクショニズムによる認知科学のアプローチの中核をなすものである。人間の記憶をモデル化するためにコネクショニストモデルが用いられる中で、この「破滅的忘却」の問題は、McCloskeyとCohen（1989年）^[1]およびRatcliff（1990年）^[2]によって科学的に注目された。この現象は、「安定性・可塑性のジレンマ」^[3]の極端な表れであるとされる。すなわち、新しい情報に感受性を持ちながらも、以前の情報を破壊しない人工ニューラルネットワークを構築するという困難さを表している。

ルックアップテーブルとコネクショニストネットワークは、この安定性と可塑性のスペクトラムの両極に位置している^[4]。前者は新しい情報に対して完全に安定しているが、入力から汎化（一般化）を行う能力に欠ける。一方、後者は未知の入力に対して汎化できるが、新しい情報に対して敏感すぎるため、以前の情報を破壊してしまう傾向がある。

バックプロパゲーションによるネットワークは、人間の記憶のように汎化が可能であるが^[要出典]、安定性は人間の記憶に比べて劣る。特にこれらのネットワークは破滅的忘却の影響を受けやすく、これは人間の記憶との重要な違いである。人間は一般にこのような破滅的忘却を示さないとされている^[5]。

『逐次学習問題』：McCloskeyとCohen（1989年）

McCloskeyとCohen（1989年）は、バックプロパゲーションニューラルネットワークを用いた2つの実験を通じて、破滅的忘却の問題を指摘した。

実験1：1と2の加算問題の学習

この実験では、まず「1をたす」問題（例：1+1〜9+1、1+2〜1+9）の17個の問題を訓練データとして、ネットワークを完全に学習させた。学習の進行とともに誤差は減少し、正しい出力が得られるようになった。次に、「2をたす」問題（例：2+1〜2+9、1+2〜9+2）の17個の問題を同様に学習させた。

しかし、「2をたす」問題を学習した直後に「1をたす」問題の出力を確認すると、ネットワークはそれらの出力を正しく再現できなくなっていた。出力パターンは、正しい数よりも誤った数に近い形になっており、学習した情報が新しい学習によって大きく破壊されていた。特に、両セットに含まれていた問題（例：2+1）で著しい性能劣化が確認された。

実験2：BarnesとUnderwood（1959年）の研究の再現^[6]

この実験では、レトロアクティブ干渉を再現するため、ネットワークにA-BリストとA-Cリストを段階的に学習させた。各リストには文脈パターンが入力ベクトルに含まれており、A-B文脈ではB、A-C文脈ではCを出力するよう設計された。

リストを同時に学習させた場合は問題なくすべての対応関係を習得できたが、A-Bリストを先に学習し、次にA-Cリストを学習させた場合、A-Cの学習によってA-Bの記憶が著しく損なわれた。特に、Aに対してBを出力すべき場合でもCに近い出力が生成されるなど、記憶の「上書き」が観察された。

McCloskeyとCohenは、隠れ層のユニット数の増加、学習率の調整、重みの固定、ターゲット値の変更（0.0と1.0から0.1と0.9への変更）など様々な手法で破滅的忘却の軽減を試みたが、完全に防ぐことはできなかった。

実験を通した彼らの結論は以下の通りである：

新しい学習が既存の重みに影響を与える限り、ある程度の忘却は不可避である。
学習すべき新しい情報量が多ければ多いほど、古い知識の忘却も激しくなる。
並列的（同時）学習は忘却が少ないが、逐次学習では破滅的忘却が発生する。

『学習と忘却関数によって課される制約』：Ratcliff（1990年）

Ratcliff（1990年）は、逐次的に項目を学習する標準的な認識記憶手続きにおいて、複数のバックプロパゲーションモデルを使用した^[2]。認識性能を分析した結果、以下の2つの主要な問題が判明した：

新しい情報の学習によって、既に学習された情報が急激かつ破滅的に忘れられる。

これはMcCloskeyとCohen（1989年）の研究と一致しており、1回の新しい学習でも古い情報が大幅に失われることが観察された。また、出力は古い入力と新しい入力の混合のような中間的な応答を示すことが多かった。大規模なネットワークでは、AB→CDのようにグループで学習した項目は、1つずつ学習した項目（A→B→C...）よりも干渉に対して耐性があったが、それでも忘却の程度は大きかった。さらに、隠れ層のユニット数を増やしても干渉の軽減には寄与しなかった。

学習が進むにつれて、既知の項目と未知の項目の識別能力が低下する。

この点は、人間の記憶研究と矛盾しており、人間では学習の進行に伴って識別精度が向上することが知られている。Ratcliffは、「古い」「新しい」の判別用ノード（応答ノード）を追加することでこの問題に対処しようとしたが、これらのノードはすべての入力に対して活性化してしまい、解決には至らなかった。また、文脈パターンを用いたモデルも識別精度の向上にはつながらなかった。

解決策

破滅的忘却の主な原因は、分散型ニューラルネットワークの隠れ層における表現の重なりであると考えられている^[7]^[8]^[9]。分散表現では、各入力が多数のノードの重みに変化を引き起こす傾向がある。多くの重みが変化すると、以前の知識が保持される可能性が低くなるため、破滅的忘却が発生する。

学習は「重み空間内の移動」として視覚化することができる。この重み空間は、ネットワークが持つ可能性のある重みの全組み合わせを空間的に表したものと考えられる。最初にあるパターン集合を学習すると、ネットワークはそれらすべてを識別可能にするための重み空間上の位置を見つける。しかし、新たなパターン集合を学習すると、ネットワークはその新パターンだけを識別可能にする位置へ移動する。そのため、両方のパターン集合を識別するには、両者に適した重み空間上の中間的な位置を見つける必要がある。

以下に、逆伝搬ネットワークにおける破滅的忘却を軽減するために、実証的に効果が示されているいくつかの技術を示す。

直交性の利用

初期の手法の多くは、入力ベクトルあるいは隠れ層における活性化パターンを互いに直交するようにすることを目的としていた。LewandowskyとLi（1995年）^[10] によれば、学習されたパターン間の干渉は、入力ベクトルが直交していると最小限に抑えられる。直交とは、2つのベクトル間の要素積の総和がゼロであることを意味する。例として、[0,0,1,0] と [0,1,0,0] の内積は 0 であり、これらは直交であるとされる。隠れ層の表現を直交に近づけるためには、バイポーラ表現（0と1の代わりに-1と1を使用）などの技法が有効であるとされる。

ノードシャープニング技法

French（1991年）^[11] は、破滅的忘却が隠れ層におけるノード活性の重なり、すなわち活性化のオーバーラップによって生じると指摘した。局所表現を使用するニューラルネットワークではこの問題が見られないため、オーバーラップを減らすことが干渉を軽減する鍵である。彼はこれを実現する方法として「活性化のシャープニング（Activation sharpening）」を提案した。これは、もっとも活性化されたノードの活性を強調し、それ以外のノードの活性を抑える操作を行った後、入力から隠れ層への重みをこの新しい活性パターンに応じて調整するものである。

ノベルティルール

Kortge（1990年）は、新しい入力のうち、既存の入力と異なる要素のみに学習を集中させるルールを提案した。この手法では、既存の情報と重複しない成分のみに重み更新が行われるため、隠れ層の表現の重なりを最小限に抑えることができる。主に自己符号化器（Auto-encoder）や自己連想型ネットワークで使用可能である。

事前学習

McRaeとHetherington（1993年）^[12]は、人間はニューラルネットワークのようにランダムな初期重みで学習を開始するわけではなく、既存の知識を活用して新しいタスクに取り組むことができると主張した。ニューラルネットワークを本学習の前に関連するデータで事前学習させることで、新しい情報の統合時に破滅的忘却を起こしにくくすることができるとされた。

リハーサル

Robins（1995年）^[13]は、新しい情報を学習する際に、以前に学習した情報を再提示する「リハーサル」によって破滅的忘却を防ぐことができると主張した。実データが利用できない場合は、内部的に生成された「疑似パターン（pseudo-patterns）」を用いる「疑似リハーサル」が有効であるとされる。

疑似リカレントネットワーク

French（1997年）^[14]は「疑似リカレント・バックプロパゲーションネットワーク（pseudo-recurrent backpropagation network）」を提案した。このモデルでは、ネットワークは機能的に区別された2つのサブネットワークに分かれており、相互に作用する。このアプローチは生物学的な着想に基づいており、McClellandら（1995年）の研究から影響を受けている。

McClellandらの理論では、記憶は海馬と新皮質の補完的なシステムにより処理されるとされる。すなわち、海馬が短期記憶、新皮質が長期記憶を担っており、海馬で一時的に保存された情報は再活性化（リプレイ）を通じて新皮質へと転送される。

疑似リカレントモデルでは、一方のサブネットワークが「早期処理領域（early processing area）」として機能し、新たな入力パターンを学習する。他方のサブネットワークは「最終記憶領域（final storage area）」として機能する。最終記憶領域から早期処理領域への内部的な再入力により、ネットワークはリカレント構造を形成する。

このとき、実際の過去データが利用できない場合、内部生成された「疑似パターン（pseudo-patterns）」を新しい学習と交互に提示することで、以前の知識を維持する。これは破滅的忘却の緩和に寄与する。

自己更新記憶

AnsとRousset（1997年）^[15]もまた、疑似リハーサルの原理を採用しつつ、「自己更新記憶（self-refreshing memory）」を用いたニューラルネットワークアーキテクチャを提案した。このモデルは、リカレントな活性再注入処理（reverberating process）を用いてネットワーク内部の知識構造を最適に反映する疑似パターンを生成する。

この再帰的処理により、疑似パターンはネットワークの重みに蓄積された深い構造をより適切に表現することができるとされる。この手法は、系列学習や転移学習のようなタスクにおいて、破滅的忘却を回避する上で有効であることが示されている^[16]。

生成的リプレイ

近年、深層生成モデル（deep generative models）の進歩により、「生成的リプレイ（generative replay）」の手法が注目されている。これは、過去のデータを保存するのではなく、訓練された生成モデルを用いて擬似的なデータ（pseudo-data）を生成し、それを用いて過去の知識を保持する方法である。

このアプローチは、特にリプレイが入力レベルではなく中間層（隠れ層）で行われる場合に効果的であることが示されている^[17]^[18]。

生成的リプレイは、記憶効率と性能の両面で優れており、現代の継続学習（continual learning）アーキテクチャにおいて有力な手段となっている。

自発的再生

人間および動物の睡眠中における記憶固定のメカニズムに関する知見に基づき、生物学的に着想を得た他のアプローチが提案されている。古典的な見解では、宣言的記憶はノンレム（NREM）睡眠中の海馬と新皮質の対話により固定されるとされる。一方で、手続き記憶の一部は海馬を介さず、レム（REM）睡眠が関与している可能性が示唆されている^[19]。

このような研究に触発されて、ニューラルネットワーク内で睡眠様の期間中に以前学習された内部表現（記憶）を自発的に再生させるモデルが開発された^[20]^[21]。この手法では、上述した生成的リプレイとは異なり、外部生成器ネットワークを必要とせず、学習済みのネットワーク自身が内部的に記憶を再生することで破滅的忘却を防ぐ。

潜在学習

GutsteinとStump（2015年）^[22]は、転移学習を活用した「潜在学習（latent learning）」により破滅的忘却を緩和する手法を提案した。この手法では、エラー訂正出力コード（Error Correcting Output Codes, ECOC）を用いて、新たなクラスの符号化方法を選択する際に、既存の応答と最も干渉しないものを選ぶ。

このとき、新クラスに対する応答は、訓練中に明示的に提示されていないにもかかわらず、既存クラスの学習により内部的に形成されていた応答に基づくため、「潜在的に学習された符号化（Latently Learned Encodings）」と呼ばれる。この技法は1930年にTolmanによって提案された潜在学習の概念に着想を得ている。

弾性重み統合

Kirkpatrickら（2017年）^[23]は、「弾性重み統合（Elastic Weight Consolidation, EWC）」と呼ばれる技術を提案した。これは、複数のタスクを連続的に1つのニューラルネットワークに学習させるための手法である。

この技術の要点は、ネットワークの各重みが以前のタスクにとってどれほど重要であるかを推定し、その重要度に応じて新しいタスクの学習時の重みの変化を抑制するという点である。重みの重要度はフィッシャー情報行列などの確率的手法を用いて推定されるが、他の方法も提案されている^[24]^[25]^[26]。

この手法は、以前の知識の保持と新しい知識の獲得を両立させるため、継続学習における重要なブレークスルーの一つである。