¿Qué es DiffusionGemma? El modelo abierto de Google DeepMind que ejecuta IA local 4 veces más rápido

Google DeepMind publicó esta semana el último miembro de su serie abierta Gemma. Según las pruebas de usuario recogidas por Ars Technica, DiffusionGemma se ejecuta aproximadamente cuatro veces más rápido en hardware de portátil y móvil que un transformer convencional del mismo tamaño.
La diferencia es arquitectónica. Los modelos transformer, estándar de la generación de texto y chat en los últimos tres años, producen la salida token a token. Los modelos de difusión moldean y refinan toda la respuesta en paralelo.
La arquitectura de difusión es desde hace tiempo la elección establecida para la generación de imágenes. La aportación de DeepMind consiste en hacer ese mismo enfoque prácticamente utilizable para tareas de lenguaje. La empresa publicó dos versiones, de 2.000 y 9.000 millones de parámetros, como pesos abiertos.
La ventaja de velocidad procede del aprovechamiento del hardware. Con generación token a token, la GPU del dispositivo espera entre pasos. La difusión trata la respuesta completa como un cómputo paralelo, lo que multiplica la utilización.
En las pruebas recogidas por Ars Technica, un portátil con Apple Silicon y 8 GB de memoria ejecutaba el Gemma 2 clásico de 9.000 millones de parámetros a unos 12 tokens por segundo. DiffusionGemma en el mismo equipo puede producir unos 48 tokens por segundo.
Las puntuaciones generales de precisión quedan ligeramente por debajo del modelo clásico. DeepMind señala que DiffusionGemma puntúa aproximadamente un 3 % menos que el transformer Gemma 2 en MMLU y HumanEval. A cambio gana en velocidad, latencia y energía.
Para los desarrolladores, el impacto práctico está en las aplicaciones de agentes locales. Las funciones potenciadas con IA que corren en el dispositivo dejan de requerir una ida y vuelta a la nube, lo que aporta datos nuevos al debate sobre privacidad.
Los fabricantes de hardware móvil ya están implicados. Ingenieros de Qualcomm, Samsung y MediaTek dijeron a Ars Technica que ya hay trabajos de optimización en marcha para hacer funcionar el modelo en silicio de teléfono.
La decisión de pesos abiertos importa para la competencia. Frente a los modelos cerrados de OpenAI y Anthropic, un modelo de difusión rápido y ejecutable ofrece a fabricantes y aplicaciones una palanca concreta para la distribución.
Vesper cubre noticias de tecnología con fines informativos. Las cifras de rendimiento citadas proceden de pruebas publicadas por los editores y varían según hardware, controladores y carga de trabajo.
Para seguir leyendo

Cómo el reparto con drones de Wing pasó de novedad a servicio rutinario
La unidad de reparto con drones de Alphabet, Wing, ha pasado en un año de noticia televisiva a entrada en las listas de seguimiento logístico. Las cifras operativas recogidas por TechCrunch muestran que el reparto con drones ha dejado de ser una novedad y se ha convertido en un flujo asentado.

Buscar en internet no exige IA: un tribunal falla contra Google
Un tribunal federal de Estados Unidos ha establecido un hallazgo destacado en el caso antimonopolio de varias ramas contra Google: la IA no es una característica inevitable de un servicio de búsqueda. El fallo, resumido por Ars Technica, debilita directamente la defensa de Google sobre los AI Overviews.

Casi un millón de pasaportes y documentos de identidad con foto quedaron sin protección en internet: dónde se rompió la cadena
Una filtración de datos publicada por The Verge ha revelado que casi un millón de pasaportes y documentos de identidad con foto pertenecientes a una plataforma de verificación de usuarios quedaron sin protección en internet abierto. La exposición no fue producto de un ataque, sino de un error de configuración.

Los norcoreanos están detrás de casi la mitad de los hackeos en la tecnológica estadounidense, según un informe de CrowdStrike
Un nuevo informe de CrowdStrike indica que el 46 % de los ciberataques dirigidos contra la tecnológica estadounidense durante el último año procedieron de actores vinculados a Corea del Norte. Según TechCrunch, las operaciones no se limitan al robo de datos, sino que buscan también la infiltración mediante falsas candidaturas laborales.

La NASA designa la tripulación de Artemis III y fija un calendario de vuelo ambicioso
Según Ars Technica, la NASA designó oficialmente a la tripulación de Artemis III, la primera misión tripulada a la superficie lunar desde Apolo, y fijó un calendario de lanzamiento ambicioso. Varios componentes críticos de la arquitectura de la misión siguen en fase de pruebas.
