Tech

Qu'est-ce que DiffusionGemma ? Le modèle ouvert de Google DeepMind qui fait tourner l'IA locale 4 fois plus vite

Ars Technicail y a 2 h
Écran de portable affichant des lignes de code abstraites
Écran de portable affichant des lignes de code abstraitesPhoto: Daniil Komov / Pexels

Google DeepMind a publié cette semaine le dernier membre de sa série ouverte Gemma. Selon les tests utilisateurs rapportés par Ars Technica, DiffusionGemma tourne environ quatre fois plus vite sur du matériel d'ordinateur portable et mobile qu'un transformeur classique de taille équivalente.

La différence est architecturale. Les modèles transformeurs, standard de la génération de texte et de chat depuis trois ans, produisent leur sortie un token à la fois. Les modèles de diffusion façonnent et affinent la réponse entière en parallèle.

L'architecture de diffusion est installée depuis longtemps en génération d'images. La contribution de DeepMind consiste à rendre la même approche utilisable pour les tâches de langue. L'entreprise a publié deux versions, à 2 milliards et 9 milliards de paramètres, en poids ouverts.

Le gain de vitesse vient de l'utilisation du matériel. Avec une génération token par token, le GPU attend entre les étapes. La diffusion traite la réponse entière comme un calcul parallèle, ce qui multiplie l'utilisation.

Dans les tests rapportés par Ars Technica, un ordinateur portable Apple Silicon doté de 8 Go de mémoire faisait tourner le Gemma 2 classique à 9 milliards de paramètres à environ 12 tokens par seconde. DiffusionGemma, sur la même machine, en produit environ 48 par seconde.

Les scores de précision globaux sont légèrement inférieurs à ceux du modèle classique. DeepMind indique que DiffusionGemma marque environ 3 % de moins que le transformeur Gemma 2 sur MMLU et HumanEval. En contrepartie, le gain est sensible côté vitesse, latence et énergie.

Pour les développeurs, l'impact pratique réside dans les applications d'agents locaux. Les fonctions dopées à l'IA tournant sur l'appareil n'exigent plus un aller-retour vers le nuage, ce qui injecte de nouveaux éléments dans le débat sur la confidentialité.

Les constructeurs de matériel mobile sont déjà engagés. Des ingénieurs de Qualcomm, Samsung et MediaTek ont indiqué à Ars Technica que des travaux d'optimisation pour faire tourner le modèle sur des puces de téléphone sont en cours.

Le choix de poids ouverts compte pour la concurrence. Face aux modèles fermés d'OpenAI et d'Anthropic, un modèle de diffusion rapide et exécutable offre aux constructeurs et aux applications un levier concret de distribution.

Vesper couvre les actualités tech à titre informatif. Les chiffres de performance cités proviennent de tests publiés par les éditeurs et varient selon le matériel, les pilotes et la charge de travail.

Cet article est un résumé éditorial assisté par IA basé sur Ars Technica. L'image est une photo d'archive de Daniil Komov sur Pexels.

À lire ensuite