Qu'est-ce que DiffusionGemma ? Le modèle ouvert de Google DeepMind qui fait tourner l'IA locale 4 fois plus vite

Google DeepMind a publié cette semaine le dernier membre de sa série ouverte Gemma. Selon les tests utilisateurs rapportés par Ars Technica, DiffusionGemma tourne environ quatre fois plus vite sur du matériel d'ordinateur portable et mobile qu'un transformeur classique de taille équivalente.
La différence est architecturale. Les modèles transformeurs, standard de la génération de texte et de chat depuis trois ans, produisent leur sortie un token à la fois. Les modèles de diffusion façonnent et affinent la réponse entière en parallèle.
L'architecture de diffusion est installée depuis longtemps en génération d'images. La contribution de DeepMind consiste à rendre la même approche utilisable pour les tâches de langue. L'entreprise a publié deux versions, à 2 milliards et 9 milliards de paramètres, en poids ouverts.
Le gain de vitesse vient de l'utilisation du matériel. Avec une génération token par token, le GPU attend entre les étapes. La diffusion traite la réponse entière comme un calcul parallèle, ce qui multiplie l'utilisation.
Dans les tests rapportés par Ars Technica, un ordinateur portable Apple Silicon doté de 8 Go de mémoire faisait tourner le Gemma 2 classique à 9 milliards de paramètres à environ 12 tokens par seconde. DiffusionGemma, sur la même machine, en produit environ 48 par seconde.
Les scores de précision globaux sont légèrement inférieurs à ceux du modèle classique. DeepMind indique que DiffusionGemma marque environ 3 % de moins que le transformeur Gemma 2 sur MMLU et HumanEval. En contrepartie, le gain est sensible côté vitesse, latence et énergie.
Pour les développeurs, l'impact pratique réside dans les applications d'agents locaux. Les fonctions dopées à l'IA tournant sur l'appareil n'exigent plus un aller-retour vers le nuage, ce qui injecte de nouveaux éléments dans le débat sur la confidentialité.
Les constructeurs de matériel mobile sont déjà engagés. Des ingénieurs de Qualcomm, Samsung et MediaTek ont indiqué à Ars Technica que des travaux d'optimisation pour faire tourner le modèle sur des puces de téléphone sont en cours.
Le choix de poids ouverts compte pour la concurrence. Face aux modèles fermés d'OpenAI et d'Anthropic, un modèle de diffusion rapide et exécutable offre aux constructeurs et aux applications un levier concret de distribution.
Vesper couvre les actualités tech à titre informatif. Les chiffres de performance cités proviennent de tests publiés par les éditeurs et varient selon le matériel, les pilotes et la charge de travail.
À lire ensuite

Comment la livraison par drone de Wing est passée de gadget à service de routine
L'unité de livraison par drone d'Alphabet, Wing, est passée en un an du sujet télé à la veille logistique. Les chiffres opérationnels rapportés par TechCrunch montrent que la livraison par drone n'est plus une curiosité mais un flux installé.

On n'a pas besoin d'IA pour chercher sur internet : un tribunal tranche contre Google
Une cour fédérale américaine a posé un constat marquant dans le contentieux antitrust à plusieurs branches contre Google : l'IA n'est pas une caractéristique inéluctable d'un service de recherche. La décision, résumée par Ars Technica, fragilise directement la défense de Google sur les AI Overviews.

Près d'un million de passeports et de pièces d'identité avec photo laissés sans protection sur l'internet public : où la chaîne s'est rompue
Une fuite de données rapportée par The Verge a révélé que près d'un million de passeports et de pièces d'identité avec photo, appartenant à une plateforme de vérification d'utilisateurs, sont restés sans protection sur l'internet ouvert. L'exposition ne résulte pas d'une attaque mais d'une erreur de configuration.

Les Nord-Coréens à l'origine de près de la moitié des piratages dans la tech américaine, selon un rapport CrowdStrike
Un nouveau rapport de CrowdStrike indique que 46 % des cyberattaques ciblées contre la tech américaine au cours de l'année écoulée provenaient d'acteurs liés à la Corée du Nord. Selon TechCrunch, les opérations ne se limitent pas au vol de données mais visent aussi l'infiltration par fausses candidatures.

La NASA désigne l'équipage d'Artemis III et fixe un calendrier de vol ambitieux
Selon Ars Technica, la NASA a officiellement désigné l'équipage d'Artemis III, première mission lunaire habitée à la surface depuis Apollo, et fixé un calendrier de lancement ambitieux. Plusieurs composants critiques de l'architecture de la mission sont encore en phase de test.
