Thinking Machines, la société de Mira Murati, dévoile des « modèles d'interaction » pour une collaboration IA en temps réel

The Vergeil y a 3 h

Visualisation abstraite d'un réseau de données avec des nœuds connectés — Photo: Google DeepMind / Pexels

Thinking Machines, la société d'IA fondée par l'ancienne directrice technique d'OpenAI Mira Murati, a annoncé travailler sur ce qu'elle appelle des « modèles d'interaction ». Mme Murati a été directrice technique d'OpenAI durant plusieurs années avant de quitter l'entreprise fin 2024 pour fonder Thinking Machines. La société a fait sa première annonce technique majeure lundi.

Selon la définition de Thinking Machines, les modèles d'interaction permettront aux personnes de « collaborer avec l'IA comme nous collaborons naturellement entre nous — ils prennent en continu son, vidéo et texte, et pensent, répondent et agissent en temps réel ». La société décrit la différence clé par rapport aux modèles classiques comme une « conscience continue » plutôt que des allers-retours discrets.

Les grands modèles de langage actuels (LLM) attendent que l'utilisateur ait fini de taper ou que la conversation se termine. Thinking Machines écrit que les modèles d'aujourd'hui « expérimentent la réalité en un fil unique. Jusqu'à ce que l'utilisateur termine d'écrire ou de parler, le modèle attend sans aucune perception de ce que l'utilisateur fait, ni de la manière dont il le fait ».

Les modèles d'interaction proposent une architecture différente. Telle que la décrit l'équipe de Mme Murati, les modèles accèdent à des flux de données en temps réel, les surveillent et les évaluent en continu, et planifient les réponses en collaboration avec l'utilisateur. L'approche vise à donner à Thinking Machines un avantage sur les usages vocaux et vidéo.

Les cas d'usage listés incluent la prise de notes et la synthèse en temps réel pour les réunions professionnelles, le tutorat individuel dans l'éducation, l'aide à la décision clinique en temps réel dans la santé et la collaboration créative. La société indique que les modèles d'interaction seront initialement disponibles via ses propres applications plutôt que par une API.

L'équipe de Mme Murati compte plusieurs anciens d'OpenAI : les chercheurs John Schulman, Lukasz Kaiser et Jonathan Lachman font partie des cofondateurs. La société a bouclé une série A en septembre 2024 à une valorisation d'environ 11,2 milliards de dollars. Les investisseurs incluent Andreessen Horowitz, Sequoia et Goldman Sachs.

Les plus proches concurrents de Thinking Machines comprennent OpenAI, Anthropic et Google DeepMind, qui travaillent eux aussi sur la multimodalité en temps réel. L'API « Realtime » d'OpenAI, dévoilée fin 2025, offre un traitement parallèle de l'audio et du texte. La spécificité de l'équipe de Mme Murati est d'intégrer ces capacités dans un cadre architectural plus large.

Sur le plan architectural, la société n'a pas encore publié d'article technique. Une première préversion pour utilisateurs et développeurs est attendue à l'été 2026. La société indique que la documentation développeur s'articulera autour d'une « API de flux continu », posant un paradigme de calcul différent des modèles requête-réponse actuels.

Mme Murati a reconnu dans sa prise de parole que les modèles d'interaction soulèvent de nouvelles questions éthiques et de vie privée. Le flux continu d'audio et de vidéo requiert de nouveaux standards de traitement et de stockage des données. La société indique avoir développé une couche de traitement « on-device » qui maintient les données utilisateur en local et juge cette approche critique pour la vie privée.

L'annonce pointe une intrigue notable du secteur de l'IA : la période 2025-2026 est interprétée comme le début d'un déplacement des modèles « d'agent » et « de raisonnement » vers des approches « d'interaction continue ». Le travail de Thinking Machines pourrait servir d'indicateur précoce d'un changement de direction plus large dans les mois à venir.

Cet article est un résumé éditorial assisté par IA basé sur The Verge. L'image est une photo d'archive de Google DeepMind sur Pexels.