GPT-4oは、音声、多言語、画像認識ベンチマークで最先端の結果を達成し、また音声認識と翻訳に関する分野で新記録を樹立した[8][9]。また、GPT-4oは、Massive Multitask Language Understanding(MMLU)ベンチマークで88.7というスコアを取得した。GPT-4は86.5である[10]。
GPT-3.5やGPT-4は、音声認識をする際に異なるモデルを使用している。一方GPT-4oは言語モデルとしてvoice-to-voiceに対応しているため、応答をほぼより速く生成することができる[10]。しかし、サム・アルトマンは2024年5月15日に、GPT-4oのこの機能はまだChatGPTに搭載されていないため、従来の方法が使用されている可能性があるとした[11]。
GPT-4oは50以上の言語に対応していて[2]、これは世界の言語話者の97%以上に及んでいるとOpenAIは主張している[12]。ミラ・ムラティは、2024年5月13日のOpenAIの配信において、モデルにイタリア語を伝え、それを英語とイタリア語に翻訳することで、モデルの多言語能力を実証していた。
さらに、GPT-4oの新しいトークナイザーは、特にラテンアルファベットに基づいていない言語などに使用するトークンが少ないという特徴がある。そのため、それらの言語を使用するときのコストを抑えることができる[10]。
GPT-4oは2023年10月までの学習データを保有している[13][14]。さらに、12万8000 (128k) トークンのコンテキスト長に対応していて、[13] また2048トークンまでを出力できる[14]。
2024年5月現在、カリフォルニア大学バークレー校のLarge Model Systems Organization (LMSYS) イロレーティングベンチマークに含まれている[15]。
GPT-4oの声として、Breeze、Cove、Ember、Juniper、Skyを提供した。リリースされた後にこのうちのSkyの声が、 スカーレット・ヨハンソンに似ているとされた。5月14日、エンターテインメント・ウィークリー誌は、この類似点は意図的なものなのかどうかを記述した[16]。2024年5月18日には、ヨハンソンの夫であるColin Jostが、 サタデー・ナイト・ライブでそれに関するジョークを言った[17]。5月20日、OpenAIはSkyを無効にし、「ChatGPT、特にSkyの声をどのように学習したかについて質問をもらった。私たちは、それらに対処しながら、Skyの使用を一時停止している」と声明を出した[18]。
スカーレット・ヨハンソンは、2013年にスパイク・ジョーンズのSF映画「Her」に主演し、女性の声の賢いバーチャルアシスタントであるサマンサを演じた。
GPT-4oのリリースの前のプロモーションの一環として、サム・アルトマンは5月13日に「Her」とをツイートした[19][20]。
OpenAIは、それぞれの声は雇われた声優によるものだと主張し、具体的には、「スカイの声はスカーレット・ヨハンソンの真似ではなく、別のプロの声優が声優自身の自然な話し声を使って作ったものだ」と主張した[18]。OpenAIはすでに2023年9月に、ChatGPTアシスタントの近々登場する新しい会話バージョンはスカーレット・ヨハンソンに似せることを意図したものではないと主張した。
CTOのミラ・ムラティ氏は、その声について分からないので、実際にスカーレット・ヨハンソンの声を聞きに行かなければならなかったと述べた。OpenAIはさらに、ヨハンソンに連絡する前に声優を募集したと主張した[21][20]。
この事件に対して人々は、ヨハンソンが以前、マーベル映画『ブラック・ウィドウ』のストリーミング配信をめぐる契約違反でウォルト・ディズニー社を訴えて和解した経緯との類似点を指摘した。この和解でヨハンソンは4000万ドルほどを手にしたと推測されている[22][23]。
また、5月21日にはワシントンポストのShira Ovide記者がテクノロジー企業による「most bone-headed self-owns」(最も間抜けな自己所有)のリストを発表し、ヨハンソンの不同意にもかかわらずヨハンソンに似た声を採用し、その後類似点を否定した決定は6位にランクされた[21]。5月24日、ポリティコのデレク・ロバートソン氏は「massive backlash(大規模な反発)」について書き、「世界で最も有名な映画スターの一人の声を盗用することは、 AI への過度の依存についての警告となるこの映画に関連しているが、すぐに世論をサム・アルトマン氏の主張に引き戻すのに役立つ可能性は低い」と結論付けた[24]。