Le nouveau modèle Gemini Omni de Google : une IA qui transforme toute entrée en toute sortie

L'unité de recherche en IA de Google a dévoilé son nouveau modèle 'Gemini Omni'. Selon une prise en main détaillée publiée par The Verge, le modèle est positionné comme une IA multimodale universelle capable de convertir toute entrée (texte, image, vidéo, audio, code) en toute sortie.
Dans le test de The Verge, le modèle a produit une courte vidéo à partir d'une photographie, une composition musicale à partir d'un texte, et un modèle 3D à partir de la description orale d'une scène. Le journaliste de The Verge Alex Heath a commenté : 'La capacité de Gemini Omni est suffisamment large pour rendre inutile le suivi de ce que chaque modèle peut faire.'
Dans le billet de blog de lancement de Google DeepMind, la structure 'multimodale universelle' de Gemini Omni est décrite comme fusionnant en un seul modèle les fonctions d'Imagen 4, Veo 3.5 et Lyria 2 — modèles auparavant développés séparément. Le directeur de Google DeepMind Demis Hassabis a qualifié le modèle de 'produit le plus complet de notre recherche en IA à ce jour.'
Selon les informations techniques limitées publiées par Google, Gemini Omni utilise une architecture appelée 'espace de représentation unifié'. Cette architecture permet de représenter différents types d'entrées dans un espace vectoriel partagé et de les convertir directement les unes en les autres.
Un point notable dans le test de The Verge est que le modèle produit aussi des résultats de haute qualité pour la génération de contenu synthétique (deepfake). Heath a écrit qu'il avait créé une fausse vidéo professionnellement réaliste à partir d'une photographie de lui-même : 'Le résultat pourrait tromper n'importe quel spectateur ; si je voyais mon propre visage dire quelque chose comme cela, j'y croirais.'
Dans son annonce de politique de sécurité, Google a indiqué que le modèle serait livré avec les marqueurs de provenance de contenu visuel et audio SynthID. SynthID est un système de filigranage dont la signature numérique peut être détectée par les algorithmes d'analyse de contenu dans les enregistrements images ou audio. Google a précisé avoir également appliqué un filtre bloquant les requêtes demandant les données de visage ou de voix de personnalités politiques.
La porte-parole du Bureau européen de l'IA à Bruxelles, Margrethe Vestager, a déclaré après l'annonce de Google : 'La mise sur le marché de systèmes d'IA multimodaux nécessite une évaluation dans le cadre du règlement européen sur l'IA au titre d'une classification à haut risque ; nous examinerons les mesures de sécurité de Google dans le cadre de notre processus de revue.'
Les préoccupations soulevées par la communauté de recherche incluent le potentiel d'usage abusif du modèle génératif, les questions de droits d'auteur et la consommation d'énergie. La directrice de l'Institut pour l'IA centrée sur l'humain de l'université Stanford Fei-Fei Li, dans une publication sur X, a écrit : 'À mesure que la frontière de capacité des systèmes multimodaux s'étend, les mécanismes de contrôle doivent évoluer en parallèle.'
La disponibilité de Gemini Omni pour les développeurs commencera via Google AI Studio avec un accès limité à partir du 1er juin. La sortie grand public est annoncée pour septembre 2026. L'intégration du modèle dans Google Search est prévue avec la sortie de Gemini 4.0.
Sur le plan du positionnement de marché, ce mouvement de Google constitue une contre-offensive significative face à GPT-5 d'OpenAI et Claude Opus 4.7 d'Anthropic dans la compétition. L'analyste de Bloomberg Intelligence Mandeep Singh a déclaré : 'Avec ses modèles multimodaux unifiés, Google renforce sa position sur le marché entreprise face au partenariat Microsoft-OpenAI.' Cet article relève de l'information générale ; compte tenu du rythme de développement de la technologie IA, les informations peuvent évoluer dans le temps.