OpenAI et Broadcom dévoilent une puce sur mesure conçue pour l'inférence IA à grande échelle

Ars Technicail y a 2 h

Gros plan d'une puce informatique sur une carte de circuit impriméPhoto: Jakub Pabis / Pexels

OpenAI et Broadcom ont annoncé une puce sur mesure conçue spécifiquement pour exécuter de grands modèles de langage à grande échelle, selon Ars Technica, marquant l'un des pas les plus importants jamais franchis par un développeur d'IA pour bâtir son propre silicium. La collaboration associe la connaissance qu'a OpenAI du comportement de ses modèles à l'expérience de Broadcom dans la conception et la fabrication de semi-conducteurs haut de gamme.

La puce vise directement l'inférence, terme désignant le travail d'un modèle lorsqu'il génère une réponse à un utilisateur, par opposition à l'entraînement, le processus gourmand en ressources qui consiste à construire le modèle au départ. À mesure que les services d'IA atteignent des centaines de millions d'utilisateurs, l'inférence est devenue le coût récurrent dominant, et l'économie de chaque requête façonne désormais toute l'activité.

Cette distinction explique la stratégie. Une puce optimisée uniquement pour l'inférence peut supprimer les fonctions nécessaires à l'entraînement et concentrer les transistors sur les opérations précises qu'exige l'exécution d'un modèle. En principe, cette focalisation peut offrir davantage de performance par watt et par dollar qu'un processeur généraliste effectuant la même tâche.

Ce choix traduit aussi la dépendance du secteur envers Nvidia, dont les processeurs graphiques ont alimenté l'essentiel de l'essor de l'IA. Cette dépendance a exposé les grandes entreprises d'IA aux contraintes d'approvisionnement et aux prix élevés, et plusieurs y ont répondu en concevant leurs propres accélérateurs pour gagner en marge de manœuvre et en prévisibilité sur leur intrant le plus important.

Le rôle de Broadcom est central. L'entreprise n'est pas un nom connu du grand public, mais c'est une puissance de la conception de puces sur mesure, aidant de grands clients à transformer leurs besoins en silicium fonctionnel. S'associer à Broadcom permet à OpenAI de viser un matériel personnalisé sans bâtir de A à Z une activité de semi-conducteurs.

Concevoir une puce n'est qu'une partie du défi. Le silicium sur mesure a besoin d'une pile logicielle permettant aux modèles de tourner efficacement, et une grande partie de l'outillage du secteur s'est développée autour de l'écosystème de Nvidia. Rendre une puce maison compétitive suppose d'investir massivement dans les compilateurs et bibliothèques qui traduisent les charges d'IA sur le nouveau matériel.

Le gain potentiel est considérable. Si OpenAI peut exécuter ses modèles sur des puces taillées à ses besoins exacts, elle pourrait abaisser le coût de chaque interaction, réduire sa dépendance à un fournisseur unique et gagner la liberté d'optimiser conjointement matériel et modèles. Ces avantages se cumulent à l'échelle où OpenAI opère désormais.

Il existe aussi des risques. Les projets de puces de pointe sont coûteux et lents, et le domaine évolue assez vite pour qu'une conception soit dépassée avant d'être produite en volume. Le silicium sur mesure fige en outre certaines hypothèses sur le fonctionnement des modèles, ce qui pourrait devenir une contrainte si la technologie sous-jacente change.

L'annonce s'inscrit dans une tendance plus large parmi les géants de la technologie, dont plusieurs ont bâti leurs propres accélérateurs d'IA plutôt que de s'en remettre entièrement à des composants standard. Cette tendance traduit la reconnaissance qu'à une échelle suffisante, maîtriser le matériel devient aussi stratégique que les modèles eux-mêmes.

Pour le marché au sens large, suggère le rapport d'Ars Technica, l'importance tient moins à une spécification particulière qu'à la direction prise. À mesure que les coûts d'inférence dominent l'économie de l'IA, les entreprises qui exploitent les plus grands services sont de plus en plus déterminées à concevoir les puces dont ces services dépendent, redessinant les rapports de force dans l'industrie des semi-conducteurs.

Cet article est un résumé éditorial assisté par IA basé sur Ars Technica. L'image est une photo d'archive de Jakub Pabis sur Pexels.

À lire ensuite

Rangées de baies de serveurs dans un centre de données

Plus dans Tech

Comment le refroidissement liquide réduit à presque zéro la consommation d'eau des centres de données

Une nouvelle conception de refroidissement de centre de données fonctionnant à chaud, autour de 45 degrés Celsius, peut ramener la consommation d'eau à presque rien tout en gardant les puces d'IA au frais. Cet explicatif décortique pourquoi les centres de données consomment tant d'eau et comment le refroidissement liquide chaud change la donne.

Hacker News

Un doigt touchant un capteur d'empreinte sur un smartphone

Tech

Qu'est-ce qu'une passkey ? Le remplaçant du mot de passe, et qui refuse encore de le proposer

Un nouveau site web pointe du doigt les entreprises qui ne proposent toujours pas de passkeys, la technologie destinée à remplacer les mots de passe. Cet explicatif détaille ce que sont les passkeys, comment elles rendent les comptes plus difficiles à pirater et pourquoi leur adoption reste inégale.

TechCrunchil y a 2 h

Un ordinateur portable affichant des lignes de code sur un bureau

Tech

L'IA devait tuer les emplois d'ingénieur : pourquoi les nouvelles données montrent l'inverse

Les prédictions selon lesquelles l'IA balaierait les emplois d'ingénieur logiciel ne se sont pas vérifiées, de nouvelles données suggérant que ces postes figurent parmi les plus résilients. Les analystes décrivent un schéma où les outils d'IA rendent les ingénieurs plus productifs plutôt que superflus, même si la nature du travail évolue.

TechCrunchil y a 2 h

Un écran de smartphone affichant des rangées d'icônes d'applications

Tech

Google ouvre le Play Store aux paiements externes : ce qui change pour les applis et les utilisateurs

Google autorise enfin les développeurs à utiliser des systèmes de paiement alternatifs dans le Play Store, un changement dicté par la pression antitrust et des accords judiciaires. Cette évolution pourrait réduire les commissions payées par les développeurs et remodeler les achats numériques sur Android, même si l'impact concret pour les utilisateurs se précise encore.

The Vergeil y a 2 h

Sièges vides de cinéma éclairés par la lueur d'un écran

Tech

Hollywood et OpenAI : comment l'intelligence artificielle redessine l'économie du cinéma

Le nouveau film sur le thème de l'intelligence artificielle du réalisateur italien Luca Guadagnino, « Artificial », illustre un rapprochement croissant entre les grands studios hollywoodiens et des sociétés d'IA comme OpenAI. Un article de The Verge expose ce que ce rapprochement signifie pour l'industrie cinématographique.

The Vergeil y a 1 j

Un avion de chasse dans un ciel gris et couvert

Moyen-Orient

Israël et le Hezbollah poursuivent leurs frappes malgré l'accord de cessez-le-feu

BBC Middle Eastil y a 1 h