L'apprentissage par renforcement a été utilisé pour apprendre à o3 à « réfléchir » avant de générer des réponses, en utilisant ce qu'OpenAI appelle une « chaîne de pensée privée ». Cette approche permet au modèle de planifier et d'exécuter des étapes intermédiaires de raisonnement afin de pouvoir résoudre des problèmes plus complexes. Cela nécessite néanmoins davantage de capacités de calcul et la réponse met plus de temps à être générée[7].
o3 a montré des performances nettement meilleures que o1 dans des tâches complexes, notamment en programmation informatique, en mathématiques et en sciences[1]. OpenAI a rapporté que o3 a obtenu un score de 87,7 % sur le test de performances GPQA Diamond, qui contient des questions scientifiques de niveau expert qui ne sont pas accessibles depuis internet[8].
Sur SWE-bench Verified, un test de performances d'ingénierie logicielle évaluant la capacité à résoudre de vrais problèmes GitHub, o3 a obtenu un score de 71,7 %, contre 48,9 % pour o1. Sur Codeforces, o3 a atteint un score Elo de 2727, là où o1 n'obtenait que 1891[8].
Sur le test ARC-AGI, qui évalue la capacité à identifier des motifs pour résoudre des puzzles visuels et logiques, o3 a atteint une précision trois fois supérieure à celle de o1[1],[9].