GPT-2
大規模言語モデル
From Wikipedia, the free encyclopedia
GPT-2(ジーピーティーツー、Generative Pre-trained Transformer 2) は、OpenAIが開発したGPTシリーズの大規模言語モデル。2019年2月14日にオープンソースとしてリリースされた[1][2][3][4]。
|
GPT-2がプロンプトを補完する様子を示すHugging FaceのWrite With Transformerのウェブサイト。Wikipediaのこの記事から得たテキストをプロンプトとして用いた。最初のプロンプトに続くハイライトされたテキストはすべて最初の補完候補から機械的に生成されたもので、それ以外の編集はない。 | |
| 開発元 | OpenAI |
|---|---|
| 初版 | 2019年2月14日[1] |
| リポジトリ | https://github.com/openai/gpt-2 |
| 前身 | GPT-1 |
| 後継 | GPT-3 |
| 種別 | |
| ライセンス | オープンソース |
| 公式サイト |
openai |

概要
GPT-2は、テキストを翻訳し、質問に答え、文章の要約を行い[5] [1]、時には人間と見分けがつかないようなテキスト出力を生成するが[6]、長い文章を生成すると繰り返したり意味不明な表現になることもある[7]。GPT-2は、汎用生成的人工知能であり、特定のタスク(仕事)を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある[8][5]。GPT-2は、OpenAIの2018年版GPTモデルの「スケールアップ版」として構築され[9]、パラメータ数と訓練用データセットがともに10倍に増加した[1]。
GPTアーキテクチャは、ディープラーニング(深層学習)によるニューラルネットワーク、具体的には「トランスフォーマー(Transformer)モデル」を実装しており[9]、これまでの回帰型や畳み込み型のアーキテクチャの代わりに「アテンション」を使用している[10][11]。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる[12][13]。このモデルでは、並列化を大幅に向上させることができ、RNN/CNN/LSTMに基づくモデルのこれまでのベンチマークよりも優れた性能を発揮している[9]。
OpenAIは、2019年11月、GPT-2言語モデルの完全版(15億個のパラメータを含む)を公開した[14]。GPT-2に続いて、1,750億個のパラメータを含むGPT-3[15]が、2020年に公開される予定だった[16](そのソースコードは公開されていない)。GPT-3へのアクセスは、OpenAIとマイクロソフトが提供するAPIを通じてのみ提供されている[17]。
能力
GPT-2はGPTのスケールアップ版として作成され、パラメータ数とデータセットサイズをいずれも10倍にしている[8][9][1]。双方とも教師なしのTransformerモデルで、一連のトークンの並びから次の単語を予測してテキストを生成するように訓練された。GPT-2モデルは15億のパラメータを持ち、800万のウェブページのデータセットで訓練が行われた[8]。GPT-2は、テキストサンプル中の一連の単語を解釈し、最も可能性の高い次の単語を予測するという非常に単純な基準で強化され、追加される単語を予測し続けることで完全な文や段落を生成し、自然言語で完全に理解できる(そして意味論的に意味を持つ)文を生成する[8]。特に、GPT-2は、ゼロショット設定でのタスクに対する性能で評価された。
データセット
GPT-2は新規に開発された WebText コーパスをデータセットとして利用している。
WebTextコーパス
WebText コーパスは約800万のウェブページから抽出された高品質自然言語テキストコーパスである[18]。
GPT-2はゼロショット推論可能な基盤モデルを意図して開発された。個別タスクを明示的に学習せずゼロショットで推論するには、学習用テキスト内に様々なタスクの具体例が(タスクラベル無しで)含まれている必要があると考えられる[19]。一方で質の低いテキストはモデルの精度を落とすため[20]、コモン・クロールのような無作為収集されたコーパスは利用できない[21]。これらの問題を解決するためにGPT-2論文で開発されたコーパスが WebText コーパスである。
WebText は人間によるキュレーションを品質向上に利用している[22]。まずRedditで3回以上賛成票を受けたリンク先ウェブページを一定品質のテキストとみなし[23]、Wikipedia記事の削除(他の多くのデータセットに含まれているので過剰適合の原因となる可能性があった)・重複文章の除去・ヒューリスティックによるクリーニングを経て、最終的に約800万のウェブページから抽出された約40GBの自然言語テキストをWebTextとしている[24]。
モデル
GPT-2のモデルアーキテクチャはGPT-1のマイナーチェンジ版である。アーキテクチャ上の変更点は以下の通り:
アーキテクチャはほぼ同一であるが、GPT-2はGPT-1より大きなモデルとなっている。モデル上の変更点は以下の通り:
訓練
モデルと同じく学習もスケールされており、バッチサイズは512に変更されている[31]。
GPT-2の訓練費用は1時間あたり256ドルであることが知られているが[32][33]、訓練に要した総時間は不明なため、訓練費用の総額を正確に見積もることはできない[34]。しかし、Transformerアーキテクチャを用いた同等の大規模言語モデルでの費用はより詳細に記述されており、BERTとXLNetの訓練過程では、それぞれ6,912ドルと245,000ドルの資源を消費した[33]。
性能
GPT-2は、そのデータセットとアプローチの広さによって、単純なテキスト生成にとどまらない幅広いタスクに対応できるようになった。質問に答えたり、長文を要約したり、さまざまな特定領域で言語間の翻訳をしたり、一連の単語の次の予測方法以上のことは何も指示されずに実行できる[35][36]。
一般化学習の一例は、フランス語-英語間の機械翻訳をするGPT-2の能力であり、そのために、WMT-14の翻訳タスクを使用してGPT-2の性能が評価された。GPT-2の訓練用コーパスには、フランス語のテキストはほとんど含まれていなかった。訓練前にデータセットのクリーニングで英語以外のテキストを意図的に削除したため、得られた40,000 MBのうちモデルが訓練に使用できたフランス語は10 MBにすぎなかった(ほとんどは英語の投稿や記事に含まれた外国語の引用)[8]。それでもGPT-2は、WMT-14の英語-フランス語間テストセットで5 BLEUを達成した(単語単位での置換による翻訳をわずかに下回るスコア)。また、フランス語から英語へのテストセットでGPT-2は、当時(2017年)の教師なし機械翻訳ベースラインを上回って、11.5 BLEUを達成した。これは、33.5 BLEUを達成した当時(2019年)最も高性能な教師なし手法を下回るものだった[8]。しかし、他のモデルは、この結果を達成するために大量のフランス語テキストを使用しており、一方のGPT-2は、同等の手法の約1/500のサイズの単一言語フランス語コーパスを使用したと推定された[8]。
公開
GPT-2は、2019年2月14日に初めて発表された。2019年2月のThe Vergeに掲載されたJames Vincentによる記事では「(このプログラムが)作り出す文章は、通常、人間ではないと容易に判別できる」ものの、言語生成プログラムの「これまでで、もっともわくわくする例の一つ」であることに変わりはないと述べた[35]。
偽の見出しを付けると、あとは偽の引用や統計を交えた残りを書いてくれる。短編小説の最初の行を入力すると、登場人物に次に何が起こるか教えてくれる。適切なプロンプト(命令)を入力すれば、ファン・フィクションだって書ける[35]。
ガーディアン紙はこの出力を「もっともらしい新聞の散文」と表現し[7]、VoxのKelsey Piperは「私がこれまで見た中で最もクールなAIシステムの一つは、私を失業に追い込むものかもしれない」と述べている[36]。GPT-2の柔軟性は、The Vergeによれば「印象的」と評され、具体的には、言語間でのテキスト翻訳、長文の記事の要約、雑学的な質問へ回答などの能力が注目された[35]。
修正チューリングテストを用いたアムステルダム大学の研究では、少なくともいくつかのシナリオで、参加者はGPT-2が生成した詩と人間が書いた詩を見分けられないことが分かった[37]。
制限と部分公開

これまでOpenAIのモデルはすぐに一般公開されていたが、2019年2月の発表では、悪用される危険性があるとして[7]、GPT-2のソースコードの公開を当初拒否していた[7]。発表時には、一部の報道関係者にのみ、モデルへの制限付きアクセス(ソースコード自体ではなく、入力でき、出力を提供するインターフェース)が許可された。よく言われるのは、生成されたテキストは通常まったく新しいものなので、スパマーが自動フィルターを回避するために悪用する可能性があるという正当化の理由である。OpenAIは、GPT-2を微調整して「肯定的または否定的な製品レビューを永遠に生成する」バージョンを実演した[7]。もう一つの問題は、GPT-2を使用すると、わいせつあるいは人種差別的なテキストが生成される可能性があることである。ジェレミー・ハワードなどの研究者は「この技術は、Twitterや電子メール、そしてウェブを、合理的な響きを持って文脈に沿った散文で完全に埋め尽し、他のすべての発言をかき消すようなものであり、フィルタリングは不可能になる」と警告した[35]。アレン人工知能研究所は、GPT-2に呼応して「ニューラルフェイクニュース」を検出するツールを発表した[38]。
しかし、意見は分かれた。2019年2月のThe Vergeの記事は、GPT-2がもたらす脅威は誇張されていると論じ[39]、カリフォルニア工科大学の教授でNvidiaの機械学習研究ディレクターであるAnima Anandkumarは、OpenAIが言うような脅威をもたらす能力がGPT-2にあるという証拠はなく、彼らがしたことは「オープンとは正反対」だと述べ、完全モデルの公開を拒否したことを「悪意のあるたわごと」とみなした[39]。The Gradient紙は、OpenAIに対してモデルの公開を促す公開書簡を発表し、テキスト生成AIがもたらす脅威を印刷機のそれと比較し「混乱をもたらす可能性があったものの、(幸いにも)現代社会を破壊しなかった技術」としてPhotoshopを例に挙げた[40][41]。
30年後、Photoshopは高校生が使えるほど簡単で、動詞として広く使われているにもかかわらず、社会は比較的無事ですんでいる。なぜか?それは、誰もがPhotoshopを知っているからこそである[40]。
774M公開
OpenAIは、完全な学習済みモデルや、訓練用コーパスを公開しなかったが、過去の出版物におけるその手法の説明(および基礎となる技術の無償での入手性)により、GPT-2は自由ソフトウェアとして他者が複製することが可能であった。そのような複製の一つ、OpenGPT-2は、OpenWebTextと呼ばれる自由ライセンス版のWebTextと組み合わせて2019年8月に公開された。OpenGPT-2のクラウドコンピューティング費用は約50,000ドルと提示された[42]。
2019年8月20日、OpenAIは、7億7,400万のパラメータ(15億パラメータの完全モデルの約半分の規模)を持つGPT-2の縮小版を公開した[3]。
完全版1.5B公開
しかし、GPT-2が広範な悪用につながるのではないかという当初の懸念は、現実のものとならなかった。The Vergeは「AI技術がある種の『情報世紀末(infopocalypse)』をもたらすという主張には懐疑的な理由がある。まず第一に、わずかなコストでもっともらしい文章を大量に生成できるプログラム、すなわち人間が既に存在している。」と述べている[43]。2019年11月までに、OpenAIは「これまでのところ悪用された強い証拠は見られない」と述べ、2019年11月5日に15億のパラメータを持つ完全版を公開した[4][14]。
限界

GPT-2の自然言語テキストの生成能力は、おおむね高く評価されているが、特に段落数が2段を超える長いテキストを生成する場合には、その欠点も指摘されている。Voxは「散文はかなり大まかで、ときおり非合理的なこともあり、記事が長くなればなるほど一貫性が失われる」と述べている[36]。The Vergeも同様に、GPT-2の文章は長いサンプルになると「話題がそれる」傾向があり、首尾一貫性に欠けると指摘した[35]。ウェブサイト「The Register」は、「それを読んだ人間は、しばらくすると、何かが起きていることに気づくはずだ」と評し「GPT-2は、情報を抽出し取りだすためにアルゴリズムに依存する他のシステムと同様、質問には答えていない」と述べている[32]。
GPT-2を導入するには多くの資源が必要で、完全版モデルの大きさは5ギガバイトを超えるため、アプリケーションにローカルに組み込むことが難しく、また大量のメモリー(RAM)を消費する。また、1回の予測を行うと「CPUを100%の使用率で数分間占有することがある」ほか、GPU処理でも「1回の予測に数秒かかることがある」[6]。これらの問題を軽減するために、Hugging Faceは、知識蒸留を使用して、「いくつかの品質ベンチマークで数ポイント低い」ものの、「33%小さく、2倍速い」小型モデルを作成するDistilGPT2を開発した[6]。
実装とその後の研究
ジャーナリストによって報じられたGPT-2の応用として、ニュース記事などの文章を人間が書くことを補助するなどが挙げられている[7]。GPT-2は、製品版の公開以前から、さまざまなアプリケーションやサービス、それにエンターテインメントに利用されていた。2019年6月にはRedditのサイト内に「r/SubSimulatorGPT2」というコミュニティ(サブレディット)が作られ、さまざまなサブレディットで訓練したGPT-2の実例(インスタンス)が投稿し、互いのコメントに返信することで「r/Bitcoinが擬人化したAIと、r/ShittyFoodPornの機械学習に由来する霊が議論する」状況が作られた[43]。同年7月までに、GPT-2に基づいて、さまざまなプログラミング言語のコード行を自動補完するソフトウェアが公開され、ユーザーから「ゲームチェンジャー(トレンドを変えるできごと)」と評された[44]。
2019年には、GPT-2を利用し、ユーザーの入力に基づいて動的なテキストアドベンチャーを提供するAI Dungeonが発表された[45]。2021年現在、AI Dungeonは、オプションの有料アップグレードとしてGPT-3の最大リリースAPIへのアクセスを提供し、無料版ではGPT-3の2番目に大きなリリースを使用した[46]。AI Dungeonを中心に設立されたLatitudeは、2021年に開業資金330万ドルを調達した[41]。いくつかのウェブサイトでは、GPT-2やその他のTransformerモデルのさまざまなインスタンスの対話的なデモンストレーションを公開している[47][48][49]。
2021年2月、問題を抱えたティーンエイジャー向けの危機管理センターが、カウンセラーが10代の模擬患者と会話してトレーニングするために、GPT-2由来のチャットボットを使用開始すると発表した(これは純粋に内部の訓練目的での使用で、GPT-2は実在のティーンエイジャーとは会話しなかった)[50]。
GPT1 - 3の比較
| アーキテクチャ | パラメータ数 | 訓練用データ | |
|---|---|---|---|
| GPT-1 | 12層、12ヘッドのTransformerデコーダ(エンコーダなし)、次いで線形softmax | 1.2億 | BookCorpus: 4.5 GBのテキスト、さまざまなジャンルの未発表小説7000冊分[51] |
| GPT-2 | GPT-1 変種 | 15億[28] | WebTextコーパス (40 GB) |
| GPT-3 | GPT-2, ただしスケーリングが大きく変更された | 1750億 | 570 GBの平文、4,000億のトークン。主にCommonCrawl、WebText、英語版Wikipedia、2つの書籍コーパス(Books1、Books2) |