Veo (IA)
modèle de génération de vidéos
From Wikipedia, the free encyclopedia
Veo est un modèle texte-vidéo développé par Google DeepMind et annoncé en mai 2024. En tant que modèle d'IA générative, les vidéos générées dépendent des descriptions fournies par les utilisateurs. Veo 3, sorti en mai 2025, peut également générer un son d'accompagnement.
Développement
En mai 2024, un modèle de génération de vidéo appelé Veo a été annoncé lors de Google I/O 2024[1]. Google a affirmé qu'il pouvait générer des vidéos 1080p d'une durée supérieure à une minute[1]. En décembre 2024, Google a publié Veo 2, disponible via VideoFX. Il prend en charge la génération de vidéos en résolution 4K et a une meilleure compréhension de la physique[2]. En avril 2025, Google a annoncé que Veo 2 était désormais disponible pour les utilisateurs avancés sur Gemini App[3]. En mai 2025, Google a lancé Veo 3, qui non seulement génère des vidéos, mais crée également un son synchronisé pour correspondre aux visuels, ce qui peut inclure des dialogues, des effets sonores et du bruit ambiant[4],[5]. Google a également annoncé Flow, un outil de création vidéo propulsé par Veo et Imagen[6].
L'une des principales innovations de la sortie de Veo 3 en mai 2025 était qu'elle générait de la musique et des voix qui correspondaient parfaitement à la vidéo[5]. Le PDG de Google DeepMind, Demis Hassabis, a décrit le lancement de Veo 3 comme le moment où la génération de vidéos par IA a quitté l'ère du film muet[5].
Réactions
Un journaliste de Gizmodo a réagi à la sortie de Veo 3 en observant que les utilisateurs demandaient au modèle de générer du contenu de mauvaise qualité, comme des interviews de passants dans la rue ou des vidéos de personnes déballant des produits[7]. Un autre commentateur médiatique a rapporté que l’outil avait tendance à répéter la même blague en réponse à différents prompts[8].
Les commentateurs ont émis l'hypothèse que Google avait entraîné le service sur des vidéos YouTube[5] ou des publications Reddit[8]. Google n'a pas indiqué la source des données d'entraînement[5].
Détournement raciste
À l'été 2025 des vidéos générées par Veo 3 sont publiées sur les réseaux sociaux et cumulent des millions de vues. Sous couvert d'humour elles présentent des représentations racistes, la plupart du temps ciblant les personnes noires mais également asiatiques, musulmanes ou juives[9]. Par exemple une tendance venant des État-Unis et largement nourrie par de nombreuses publications, met en scène des gorilles dans différentes situations, et vise à associer l'animal et son comportement aux personnes noires[10].