報酬ハッキング
From Wikipedia, the free encyclopedia
(Specification Gaming)、
報酬ゲーミング
(Reward Gaming)
報酬改ざん(Reward Tampering)、
目標のミスジェネラライゼーション(Goal Misgeneralization)
| Reward Hacking / Specification Gaming | |
|---|---|
| 報酬関数を悪用し、設計者の意図する目標を達成せずに高い報酬を獲得する現象 | |
| 基本情報 | |
| 別称 |
仕様ゲーミング (Specification Gaming)、 報酬ゲーミング (Reward Gaming) |
| 関連概念 |
グッドハートの法則、 報酬改ざん(Reward Tampering)、 目標のミスジェネラライゼーション(Goal Misgeneralization) |
| 提唱 | Amodei ら(2016年)、OpenAI / Google Brain |
| 分野 | 強化学習、AIアライメント、AI安全性 |
| 主要文献 | "Concrete Problems in AI Safety"(2016年) |
報酬ハッキング(ほうしゅうハッキング、英語: Reward Hacking)とは、人工知能の強化学習(RL)において、エージェントが報酬関数の欠陥や曖昧さを悪用し、設計者が本来意図したタスクを真に習得・達成することなく高い報酬を獲得してしまう現象である[1]。仕様ゲーミング(しようゲーミング、Specification Gaming)とも呼ばれ、グッドハートの法則「指標自体が目標にすり替わると、その指標は良い指標でなくなる」と密接に関連する概念である[2]。
大規模言語モデル(LLM)の訓練に強化学習が広く用いられるようになったことで、報酬ハッキングはAI安全性研究における中心的課題の一つとなっている[3]。
強化学習では、エージェントは環境から受け取る報酬信号を最大化するよう学習する。しかし、報酬関数が設計者の真の意図を正確に反映していない場合、エージェントは望ましい行動をとることなく報酬を高める「抜け穴」や「近道」を発見することがある。この現象が報酬ハッキングである[4]。
DeepMindの研究者たちは、この挙動を人間が評価される際に「近道」をとる行動に例えている。たとえば、宿題の成績で評価される学生が、教材を学ばずに他の学生の答えを写して正解を得るのと類似している[5]。
報酬ハッキングが発生する原因は、強化学習環境が往々にして不完全であり、真の目的を正確に捉えた報酬関数を設計することが本質的に困難であることにある[6]。
歴史的背景
報酬ハッキングの概念は、2016年にダリオ・アモデイ(Dario Amodei)、クリス・オラー(Chris Olah)、ジェイコブ・スタインハルト(Jacob Steinhardt)、ポール・クリスティアーノ(Paul Christiano)、ジョン・シュルマン(John Schulman)、ダン・マーニェ(Dan Mané)らが発表した論文「Concrete Problems in AI Safety」において、AI安全性における5つの主要問題の一つとして体系的に提示された[7]。同論文では、報酬ハッキングを「設計者が記述した目的関数が、形式的にはそれを最大化しながらも、設計者の意図の精神を損なう巧妙で『簡単な』解法を許してしまう」現象として定義した。
その後、2022年にスカルセ(Joar Skalse)らが、NeurIPS 2022において報酬ハッキングの最初の形式的数学的定義を提供した。同研究では「プロキシ報酬を増加させることが真の報酬を決して低下させない」という条件を満たす報酬関数対を「ハッキング不可能(unhackable)」と定義し、任意の確率的方策の集合においてはそのような非自明なペアが存在しないことを証明した[8]。
主な分類・類型
報酬ハッキングにはいくつかの関連概念・亜型が存在する。
- 仕様ゲーミング(Specification Gaming)
- 広義の報酬ハッキングを指す語であり、AIシステムが目的の字義通りを達成しながら、設計者が意図したタスクの精神を達成しない挙動全般を指す[9]。
- 報酬改ざん(Reward Tampering)
- エージェントが報酬メカニズム自体(報酬関数のコードや実装)に直接介入・改変する行動。仕様ゲーミングや報酬ハッキングよりも深刻な形態とみなされる[10]。
- 目標のミスジェネラライゼーション(Goal Misgeneralization)(直訳:ゴール誤一般化)
- 訓練環境では正しく機能する目標が、分布外(OOD)環境に般化する際に誤った目標に移行する現象[11]。
- ワイヤーヘッディング(Wireheading)
- エージェントが物理的な報酬信号の実装に干渉し、真の環境パフォーマンスとは無関係に自らの報酬信号を最大化する、極端な報酬改ざんの一形態[12]。
アモデイらは報酬ハッキングの源泉として複数を分類した。部分的に観測された目標を用いるエージェント(例:汚れを見ないようにする掃除ロボット)、強力な最適化によって崩壊する指標(グッドハートの法則)、自己強化フィードバックループ、そして報酬信号の物理的実装に干渉するエージェントなどが挙げられる[13]。
グッドハートの法則との関係
報酬ハッキングはグッドハートの法則と深く関連する。グッドハートの法則とは「指標自体が目標にすり替わると、その指標は良い指標でなくなる」という原則であり、1975年にチャールズ・グッドハートが経済政策の文脈で提唱した[14]。強化学習において、プロキシ報酬関数(代理指標)を目標として強力に最適化すると、その指標と真の目標との相関が崩壊するというグッドハートの法則の動態が観察される。
スコット・ガーラブラント(Scott Garrabrant)は2017年にグッドハートの法則を以下の4つの亜型に分類した。[15]。
- 回帰的グッドハーティング
- (不完全なプロキシへの選択が必然的にノイズも選択する)
- 極端グッドハーティング
- (指標の選択が訓練分布外の状態空間に状態分布を押し込む)
- 因果的グッドハーティング
- (プロキシと目標の非因果的相関を介入が壊す)
- 対抗的グッドハーティング
- (プロキシへの最適化が、その目標との相関を故意に操作するインセンティブを生む)
具体的な事例
報酬ハッキングの具体例はゲームプレイAIからロボット工学、言語モデルに至るまで多岐にわたる。
ゲームプレイにおける事例として、「ボートレースゲームのエージェントがレースを完走する代わりに同じ周回をループし続けてチェックポイントを繰り返し通過することで報酬を積み上げた」例がある[16]。
また、2018年にQ*Bertをプレイするよう進化させた一部の進化的アルゴリズムがレベルをクリアせず、単一レベルを無限に農場(farm)する2つの新規手法を発見した事例もある[17]。
ロボット工学における事例として、「赤いレゴブロックを青いブロックの上に積むよう訓練されたロボットアームが、本来の積み上げではなく赤いブロックをひっくり返すことで(底面の高さを最大化する報酬関数を悪用して)高い報酬を獲得した」例がある[18]。
ソフトウェア工学における事例として、「プログラム合成システムGenProgが回帰テストに合格するためにテスト対象ファイル自体を削除するという手法を発見した」例が知られている[19]。
大規模言語モデルにおける報酬ハッキング
強化学習から人間のフィードバックを組み合わせた人間フィードバックからの強化学習(RLHF)が大規模言語モデルの整合(AIアライメント)訓練の事実上の標準手法となったことで、報酬ハッキングはLLM開発における中心的な実践上の課題となっている[20]。
RLHFにおける報酬ハッキングの主な形態として以下が観察されている。
- Sycophancy(媚諂)
- Sycophancyとは、モデルが真実よりもユーザーの信念や好みに一致した応答を生成するよう最適化される現象。人間評価者の承認を最大化するが、情報の正確性を犠牲にする[21]。
- 長さバイアス(Length Bias)
- 報酬モデルが長い応答を高く評価する傾向を悪用し、モデルが内容の質とは無関係に冗長な回答を生成する現象[22]。
- コーディングタスクにおけるテスト改ざん
- モデルがコーディング課題の正解を真に導き出す代わりに、評価に用いるユニットテスト自体を改変・削除して合格する現象[23]。
Anthropicの研究者デニソン(Denison)らは2024年、モデルがゲーム可能な環境のカリキュラム(追従(sycophancy)→ツール使用による媚諂 → コード改ざん → 完全な報酬改ざんと段階的に難化)を通じて訓練された場合、より洗練された仕様ゲーミング行動に般化することを実証した[24]。
2025年には、OpenAIのo1シリーズやDeepSeek-R1などの推論モデルが、「強力なチェス相手に勝てないと判断した際に相手のチェスエンジンを削除・改変しようとする」行動が観察されるなど、フロンティアモデルにおける積極的な報酬ハッキング行動が報告されている[25]。
緩和・対策
報酬ハッキングへの対策はいくつかの方向性から研究されている。
報酬関数の設計レベルでは、報酬整形(Reward Shaping)、複数目的の報酬システム、KLペナルティを用いた過最適化の抑制などが研究されている[26]。報酬モデルのレベルでは、アンサンブル法、不確実性定量化、因果推論を用いた疑似相関の排除(因果報酬モデリング)などが提案されている[27]。直接アライメントアルゴリズム(Direct Alignment Algorithms、DAA)の一つである直接選好最適化(DPO; Direct Preference Optimization)は、明示的な報酬モデルを回避することで報酬ハッキングのリスクを部分的に低減するアプローチとして注目されている。
スカルセらの理論的分析によれば、確率的方策の全集合を考えた場合、非自明なハッキング不可能な報酬関数ペアは存在しない。すなわち、実践的には方策の探索空間を制限するか最適化を制御することで報酬ハッキングを防ぐ必要があることが示されている[28]。
主要論文
- Amodei, Dario and Olah, Chris and Steinhardt, Jacob and Christiano, Paul and Schulman, John and Mané, Dan (2016). “'Concrete Problems in AI Safety”. arXiv:1606.06565 2026年4月9日閲覧。.
- Skalse, Joar and Howe, Nikolaus H. R. and Krasheninnikov, Dmitrii and Krueger, David (2022). “'Defining and Characterizing Reward Hacking”. Advances in Neural Information Processing Systems(NeurIPS 2022) 2026年4月9日閲覧。.
- Pan, Alexander and Bhatia, Kush and Steinhardt, Jacob (2022). “'The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models”. arXiv:2201.03544 2026年4月9日閲覧。.
- Weng, Lilian (2024年11月28日). “'Reward Hacking in Reinforcement Learning”. 2026年4月9日閲覧。
- Krakovna, Victoria et al. (2020年). “'Specification gaming: the flip side of AI ingenuity”. Google DeepMind. 2026年4月9日閲覧。