Factualité

En philosophie, la factualité est le caractère de ce qui est conforme aux faits, c’est‑à‑dire la qualité d’une information ou d’une affirmation d’être véridique et fondée sur le réel.

En sciences de l’information et en intelligence artificielle, elle mesure la capacité d’un système à produire des contenus corrects et non inventés, par opposition à la désinformation. Selon deepMind, en novembre 2025, en termes de factualité, c'est Gemini 3.0 Pro qui domine les autres IA les plus utilisées.

Les auteurs concluent qu'en décembre 2025, alors que 66 % des personnes et 78 % des organisations utilisent régulièrement l’IA et que sa valeur économique estimé a gagné + 31 % en un an et pourrait, si une bulle de l'IA n'éclate pas, franchir le cap des 1 000 milliards de dollars avant 2031 ; seuls 46 % des personnes interrogées déclarent faire confiance à l’IA^[1].

Jusqu’en novembre 2025, les bancs d’essai (benchmarks) traditionnels utilisés pour évaluer et comparer les modèles d’intelligence artificielle (IA) présentaient une limite majeure : ils mesuraient principalement les capacités de résolution de problèmes, sans prendre en compte la factualité des informations produites. Cette lacune était particulièrement critique face à la tendance des IA génératives (IAg) à halluciner, notamment dans l’interprétation de données issues d’images ou de graphiques, un enjeu essentiel pour les secteurs nécessitant une haute précision tels que la justice, la finance ou la médecine^[2].

Pour combler ce manque, l'équipe FACTS de Google et Kaggle ont publié un outil baptisé FACTS Benchmark Suite, présenté comme étant un cadre d'évaluation complet, distinguant^[2] :

la « factualité contextuelle » (capacité à fonder les réponses sur les données fournies), et ;
la « factualité de la connaissance mondiale » (capacité à récupérer des informations de mémoire ou via le web).

L'outil comprend (fin 2025) quatre tests distincts et complémentaires ^[2] :

Parametric Benchmark (Internal Knowledge) : le modèle testé peut-il répondre avec précision à des questions de culture générale en utilisant uniquement son savoir interne (c'est-à-dire ce qu'il a retenu de ses données d'entraînement) ?
Search Benchmark (Tool Use): le modèle peut-il effectivement utiliser la recherche sur le web pour trouver et correctement synthétiser l'information vivante ?
Multimodal Benchmark (Vision) : ce test est multimodal/paramétrique ; il vise à déterminer si le modèle testé interprète bien les graphiques, diagrammes et images, sans halluciner.
Grounding Benchmark v2 (Context) : le modèle peut-il respecter strictement le texte source fourni ?

Pour les premières IA testées (qui sont aussi celles qui sont les plus utilisées), en 2025 : les tests 1 et 3 montraient les performances plus faibles (précision universellement inférieure à 50 %), signalant notamment que l'IA Multimodale n'est pas encore prête pour l'extraction de données sans supervision humaine. Les test 2 et 4 montraient de meilleurs résultats, avec le test sur la recherche (capacité RAG), il présentait les meilleurs scores ^[2].

Pour atteindre des niveaux de précision acceptables en production, il faut connecter les modèles d'IA à un outil de recherche ou à une base de données vectorielle ; et concernant l'industrie, bien que les modèles deviennent plus performants, les systèmes doivent être conçus en partant du principe que le modèle brut peut être factuellement erroné dans environ un tiers des cas^[2].

Ce test/benchmark a d'abord montré que, fin 2025, aucun LLM testé n'a atteint la factualité ni même n'en est proche (y compris Gemini 3 Pro, GPT-5 et Claude 4.5 Opus malgré leurs progrès). Début 2025, Gemini 3 Pro se positionne en tête (score global de précision: 68,8 %) devant Gemini 2.5 Pro (62,1 %) et de GPT-5 (61,8 %)^[2]^,^[3] .

La factualité qui est un indicateur de cohérence avec le réel (qui implique « des capacités suffisamment équilibrées dans différents domaines » ; c'est-à-dire la capacité à ne pas halluciner, est un élément essentiel des futurs outils d'évaluation de l'IAG (IA générale), qui pourront notamment intégrer le « generalized mean », un peu à la manière dont certains test évaluent l'intelligence humaine autrement que par la moyenne arithmétique (dans une moyenne, une très bonne note sur un critère peut masquer une insuffisance rhédibitoire sur un autre critères)^[4].

Références

Voir aussi

Articles connexes

Bibliographie

Related Articles