Tecnología

¿Qué es DiffusionGemma? El modelo abierto de Google DeepMind que ejecuta IA local 4 veces más rápido

Ars Technicahace 2 h
Pantalla de portátil moderno con líneas de código abstractas
Pantalla de portátil moderno con líneas de código abstractasPhoto: Daniil Komov / Pexels

Google DeepMind publicó esta semana el último miembro de su serie abierta Gemma. Según las pruebas de usuario recogidas por Ars Technica, DiffusionGemma se ejecuta aproximadamente cuatro veces más rápido en hardware de portátil y móvil que un transformer convencional del mismo tamaño.

La diferencia es arquitectónica. Los modelos transformer, estándar de la generación de texto y chat en los últimos tres años, producen la salida token a token. Los modelos de difusión moldean y refinan toda la respuesta en paralelo.

La arquitectura de difusión es desde hace tiempo la elección establecida para la generación de imágenes. La aportación de DeepMind consiste en hacer ese mismo enfoque prácticamente utilizable para tareas de lenguaje. La empresa publicó dos versiones, de 2.000 y 9.000 millones de parámetros, como pesos abiertos.

La ventaja de velocidad procede del aprovechamiento del hardware. Con generación token a token, la GPU del dispositivo espera entre pasos. La difusión trata la respuesta completa como un cómputo paralelo, lo que multiplica la utilización.

En las pruebas recogidas por Ars Technica, un portátil con Apple Silicon y 8 GB de memoria ejecutaba el Gemma 2 clásico de 9.000 millones de parámetros a unos 12 tokens por segundo. DiffusionGemma en el mismo equipo puede producir unos 48 tokens por segundo.

Las puntuaciones generales de precisión quedan ligeramente por debajo del modelo clásico. DeepMind señala que DiffusionGemma puntúa aproximadamente un 3 % menos que el transformer Gemma 2 en MMLU y HumanEval. A cambio gana en velocidad, latencia y energía.

Para los desarrolladores, el impacto práctico está en las aplicaciones de agentes locales. Las funciones potenciadas con IA que corren en el dispositivo dejan de requerir una ida y vuelta a la nube, lo que aporta datos nuevos al debate sobre privacidad.

Los fabricantes de hardware móvil ya están implicados. Ingenieros de Qualcomm, Samsung y MediaTek dijeron a Ars Technica que ya hay trabajos de optimización en marcha para hacer funcionar el modelo en silicio de teléfono.

La decisión de pesos abiertos importa para la competencia. Frente a los modelos cerrados de OpenAI y Anthropic, un modelo de difusión rápido y ejecutable ofrece a fabricantes y aplicaciones una palanca concreta para la distribución.

Vesper cubre noticias de tecnología con fines informativos. Las cifras de rendimiento citadas proceden de pruebas publicadas por los editores y varían según hardware, controladores y carga de trabajo.

Este artículo es un resumen editorial asistido por IA basado en Ars Technica. La imagen es una foto de archivo de Daniil Komov en Pexels.

Para seguir leyendo

Un resplandor tenue sobre racks de servidores por la noche
Tecnología

Los norcoreanos están detrás de casi la mitad de los hackeos en la tecnológica estadounidense, según un informe de CrowdStrike

Un nuevo informe de CrowdStrike indica que el 46 % de los ciberataques dirigidos contra la tecnológica estadounidense durante el último año procedieron de actores vinculados a Corea del Norte. Según TechCrunch, las operaciones no se limitan al robo de datos, sino que buscan también la infiltración mediante falsas candidaturas laborales.

TechCrunchhace 2 h