GPT-4o

GPT-4o（ジーピーティーフォーオー、Generative Pre-trained Transformer 4 Omni）は、OpenAIが開発したマルチモーダル（英語版）大規模言語モデル (LLM) 。2024年 5月13日の配信でOpenAIのCTOであるミラ・ムラティにより発表され、同日にリリースされた^[1]。同年7月18日には、速度とコスト効率に優れた軽量・小型モデルのGPT-4o mini（ジーピーティーフォーオーミニ）も追加リリースされた。

開発元 OpenAI

初版 2024年5月13日 (2年前)

前身 GPT-4 Turbo

後継

概要開発元, 初版 ...

Generative Pre-trained Transformer 4 Omni (GPT-4o)
開発元	OpenAI
初版	2024年5月13日 (2年前) (2024-05-13)
前身	GPT-4 Turbo
後継	GPT-4.5 GPT-4.1
種別	Multimodal 大規模言語モデル Generative pre-trained transformer 基盤モデル
ライセンス	プロプライエタリ
公式サイト	openai.com/index/hello-gpt-4o
テンプレートを表示

閉じる

概要

GPT-4oは、テキスト、画像、音声を入力および生成することが可能である^[2]。音声入力には最短232ミリ秒で応答でき、平均320ミリ秒で人間の応答時間に近い応答が可能である^[3]。

GPT-4oは無料で利用できるが、一日あたり利用回数の制限がある。ChatGPT有料版「Plus」のユーザーは、回数制限が5倍に緩和される^[4]。APIでは、前身モデルGPT-4 Turboの半分の価格かつ2倍の速度で使用できる^[1]。

背景

GPT-4oはもともと、Large Model Systems Organization's (LMSYS) のチャットボットとして、「gpt2-chatbot」「im-a-good-gpt2-chatbot」「im-also-a-good-gpt2-chatbot」の3つの異なるモデルとしてひそかにリリースされていた^[5]。

OpenAIのCEOであるサム・アルトマンは、2024年5月7日に自身の公式Xアカウントで「im-a-good-gpt2-chatbot」とポストした。これは、これらのモデルがA/Bテストされている新しいモデルであることの確認として解釈された^[6]。

能力

GPT-4oは、2023年10月までの学習データを保有している^[7]^[8]。12万8,000 (128k) トークンのコンテキスト長に対応し^[7]、2,048トークンまでを出力できる^[8]。

GPT-4oは、音声、多言語、画像認識ベンチマークで最先端の結果を達成し、また音声認識と翻訳に関する分野で新記録を樹立した^[9]^[10]。また、GPT-4oは、Massive Multitask Language Understanding（MMLU）ベンチマークで88.7というスコアを取得した。GPT-4は86.5である^[11]。

GPT-3.5やGPT-4は、音声認識をする際に異なるモデルを使用している一方、GPT-4oは言語モデルとしてvoice-to-voiceに対応しているため、応答をより速く生成することができる^[11]。しかし、サム・アルトマンは2024年5月15日に、GPT-4oのこの機能はまだChatGPTに搭載されていないため、従来の方法が使用されている可能性があるとした^[12]。

GPT-4oは、50以上の言語に多言語対応しており^[1]、これは世界の言語話者の97%以上に及ぶとOpenAIは述べている^[13]。ミラ・ムラティは、2024年5月13日のOpenAIの配信において、モデルにイタリア語を伝え、それを英語とイタリア語に翻訳することで、モデルの多言語能力を実証していた。

さらに、GPT-4oの新しいトークナイザーは、特にラテン文字に基づかない言語などに使用するトークンが少ないという特徴がある。そのため、それらの言語を使用するときのコストを抑えることができる^[11]。

2024年5月現在、カリフォルニア大学バークレー校のLarge Model Systems Organization (LMSYS) イロレーティングベンチマークに含まれている^[14]。

モデル一覧

GPT-4o mini：2024年7月18日リリース。速度とコストを両立した軽量小型モデル。
GPT-4o：2024年5月13日リリース。テキスト、音声、画像をリアルタイムで処理するフラッグシップモデル。

音声に関する論争

OpenAIは、GPT-4oの音声として「Breeze、Cove、Ember、Juniper、Sky」の4種を提供した。GPT-4oのリリース後、このうち「Sky」の音声が、女優のスカーレット・ヨハンソンの声に似ているとされた。2024年5月14日付の『エンターテインメント・ウィークリー』誌は、この類似は意図的なものかを問う記事を掲載した^[15]。同年5月18日には、ヨハンソンの夫であるコリン・ジョスト（英語版）が『サタデー・ナイト・ライブ』で、そのことに関するジョークを言った^[16]。同年5月20日、OpenAIは「Sky」を無効にし「ChatGPT、特にSkyの声をどのように学習したかについて質問をもらった。私たちはそれらに対処しながら、Skyの使用を一時停止している」と声明を出した^[17]。

スカーレット・ヨハンソンは、2013年にスパイク・ジョーンズのSF映画『her/世界でひとつの彼女』に主演し、人工知能型OSである「サマンサ」の役を演じた経緯があった。

→映画については「her/世界でひとつの彼女」を参照

2024年5月13日、GPT-4oのリリース前のプロモーションの一環として、サム・アルトマンは自身の公式Xアカウントで「Her」とツイートしていた^[18]^[19]。

OpenAIは、それぞれの声は雇われた声優によるものだと主張し、具体的には「Skyの声は、スカーレット・ヨハンソンの真似ではなく、別のプロの声優が本人の自然な話し声で作ったものだ」と主張した^[17]。OpenAIはすでに2023年9月、ChatGPTアシスタントの近々登場する新しい会話バージョンは、スカーレット・ヨハンソンに似せることを意図したものではないと主張していた。

OpenAIのCTOのミラ・ムラティは、その声については分からないので、実際にスカーレット・ヨハンソンの声を聞きに行かなければならなかったと述べた。OpenAIはさらに、ヨハンソンに連絡する前に声優を募集したと主張した^[20]^[19]。

この事件に対して人々は、ヨハンソンが以前、マーベル映画『ブラック・ウィドウ』のストリーミング配信をめぐる契約違反でウォルト・ディズニー社を訴えて和解した経緯との類似点を指摘した。この和解でヨハンソンは4,000万ドルほどを得たと推測されている^[21]^[22]。

また、2024年5月21日には『ワシントンポスト』のShira Ovide記者が、テクノロジー企業による「most bone-headed self-owns（最も間抜けな自己所有）」リストを発表し、その中で、OpenAIがGPT-4oにおいて、ヨハンソンに似た声を彼女の不同意にもかかわらず採用し、その後に類似点を否定した決定を6位にランクインさせた^[20]。5月22日、『ポリティコ』のデレク・ロバートソンは「massive backlash（大規模な反発）」について書き、「世界で最も有名な映画スターの一人の声を盗用することは、 AIへの過度の依存についての警告となるこの映画^{[注釈 1]}に関連しているが、すぐに世論をサム・アルトマン氏の主張に引き戻すのに役立つ可能性は低い」と結論づけた^[23]。

概要

背景

能力

モデル一覧

音声に関する論争

脚注

注釈

出典

関連項目

Related Articles