El nuevo modelo Gemini Omni de Google: una IA que convierte cualquier entrada en cualquier salida

The Vergehace 1 d

Vista aérea de Mountain View en Silicon Valley a la luz del día. — Photo: Zetong Li / Pexels

La unidad de investigación en IA de Google ha presentado su nuevo modelo 'Gemini Omni'. Según una prueba detallada publicada por The Verge, el modelo se posiciona como una inteligencia artificial multimodal universal capaz de convertir cualquier entrada (texto, imagen, vídeo, audio, código) en cualquier salida.

En la prueba de The Verge, el modelo produjo un vídeo corto a partir de una fotografía, una composición musical a partir de un texto y un modelo 3D a partir de la descripción oral de una escena. El periodista de The Verge Alex Heath comentó: 'La capacidad de Gemini Omni es lo bastante amplia como para hacer innecesario seguir qué modelo puede hacer qué.'

En la entrada del blog de lanzamiento de Google DeepMind, la estructura 'multimodal universal' de Gemini Omni se describe como una fusión en un único modelo de las funciones de Imagen 4, Veo 3.5 y Lyria 2, modelos previamente desarrollados por separado. El director de Google DeepMind, Demis Hassabis, calificó el modelo como 'el producto más completo de nuestra investigación en IA hasta la fecha.'

Según la información técnica limitada publicada por Google, Gemini Omni utiliza una arquitectura denominada 'espacio de representación unificado'. Esta arquitectura permite representar distintos tipos de entradas en un espacio vectorial compartido y convertirlas directamente entre sí.

Un punto destacable de la prueba de The Verge es que el modelo también produce resultados de alta calidad para la generación de contenido sintético (deepfake). Heath escribió que había creado un vídeo falso profesionalmente realista a partir de una fotografía suya: 'El resultado podría engañar a cualquier espectador; si yo mismo viese a mi cara decir algo así, lo creería.'

En su anuncio de política de seguridad, Google indicó que el modelo se distribuirá con marcadores de procedencia de contenido visual y de audio SynthID. SynthID es un sistema de marca de agua cuya firma digital puede ser detectada por los algoritmos de análisis de contenido en grabaciones de imagen o audio. Google indicó que también había aplicado un filtro que bloquea las solicitudes que piden datos faciales o de voz de figuras políticas.

La portavoz de la Oficina Europea de IA en Bruselas, Margrethe Vestager, declaró tras el anuncio de Google: 'La comercialización de sistemas de IA multimodal requiere evaluación en el marco del Reglamento Europeo de IA bajo una clasificación de alto riesgo; examinaremos las medidas de seguridad de Google a través de nuestro proceso de revisión.'

Entre las preocupaciones planteadas por la comunidad investigadora figuran el potencial de uso indebido del modelo generativo, las cuestiones de derechos de autor y el consumo energético. La directora del Instituto para la IA Centrada en el Humano de la Universidad de Stanford, Fei-Fei Li, en una publicación en X, escribió: 'A medida que la frontera de capacidades de los sistemas multimodales se expande, los mecanismos de control deben evolucionar en paralelo.'

La disponibilidad de Gemini Omni para los desarrolladores comenzará a través de Google AI Studio con acceso limitado a partir del 1 de junio. El lanzamiento al público general se ha anunciado para septiembre de 2026. La integración del modelo en Google Search está prevista con la salida de Gemini 4.0.

En cuanto al posicionamiento de mercado, este movimiento de Google representa una contraofensiva significativa frente a GPT-5 de OpenAI y Claude Opus 4.7 de Anthropic en la competición. El analista de Bloomberg Intelligence Mandeep Singh declaró: 'Con sus modelos multimodales unificados, Google está reforzando su posición en el mercado empresarial frente al partenariado Microsoft-OpenAI.' Este artículo es información general; dado el ritmo de desarrollo de la tecnología de IA, la información puede evolucionar con el tiempo.

Este artículo es un resumen editorial asistido por IA basado en The Verge. La imagen es una foto de archivo de Zetong Li en Pexels.