Breaking
Tech

Glossaire de l'IA 2026 : les termes clés expliqués, des tokens aux hallucinations

TechCrunchil y a 1 h
Un réseau abstrait de nœuds connectés représentant les systèmes d'IA
Un réseau abstrait de nœuds connectés représentant les systèmes d'IAPhoto: Google DeepMind / Pexels

L'intelligence artificielle a développé un vocabulaire qui avance presque aussi vite que la technologie elle-même, et ces termes apparaissent désormais couramment dans les titres économiques, les lancements de produits et les débats de politique publique. Comprendre une poignée de concepts clés rend ce flot d'actualités bien plus lisible. Ce glossaire les passe en revue en langage clair, sans présupposer de bagage technique.

Au cœur de la vague actuelle se trouve le grand modèle de langage, ou LLM. C'est un type de système d'IA entraîné sur d'énormes quantités de texte pour prédire le prochain fragment d'écriture le plus probable au vu de ce qui précède. Ce mécanisme d'apparence simple, massivement mis à l'échelle, permet à des systèmes comme les agents conversationnels de produire réponses fluides, résumés et code. Quand on parle d'IA générative, on désigne d'ordinaire les LLM, aux côtés des modèles qui génèrent images, audio ou vidéo.

Pour traiter le texte, les modèles le découpent en tokens, des fragments correspondant à peu près à des mots ou parties de mots. Un modèle ne lit pas les lettres ou les phrases comme un humain ; il travaille en tokens, et le nombre de tokens qu'il peut considérer d'un coup s'appelle sa fenêtre de contexte. Une fenêtre plus large lui permet d'ingérer davantage d'informations, comme un long document, avant de répondre.

L'entraînement est le processus de construction d'un modèle en l'exposant à des données et en ajustant ses réglages internes, appelés paramètres, jusqu'à ce qu'il fonctionne bien. Les paramètres sont les valeurs numériques que le modèle règle pendant l'entraînement, et leur nombre, souvent en milliards, est un indicateur grossier de sa taille et de sa capacité. Après l'entraînement initial, les modèles sont souvent affinés par fine-tuning, un entraînement supplémentaire sur des données plus spécifiques pour façonner leur comportement.

Un terme entré dans l'usage courant est l'hallucination. Il décrit le cas où un système d'IA produit une information qui sonne plausible mais est fausse ou inventée. Les hallucinations sont un défi fondamental car le modèle génère un texte vraisemblable plutôt qu'il ne récupère des faits vérifiés ; il peut donc énoncer des choses fausses avec le même ton assuré que les vraies. Réduire les hallucinations est un axe majeur de recherche.

Une technique souvent employée pour fiabiliser les modèles est la génération augmentée par récupération, ou RAG. Au lieu de s'appuyer uniquement sur ce que le modèle a appris à l'entraînement, le RAG lui permet de rechercher des informations pertinentes dans une source externe, comme une base documentaire, pour fonder sa réponse. Cela aide à garder des réponses exactes et à jour, le modèle pouvant puiser dans des documents récents plutôt que dans ses seules données d'entraînement.

L'inférence désigne le fait d'exécuter concrètement un modèle entraîné pour obtenir un résultat, par opposition à l'entraîner. Chaque fois que vous posez une question à un agent conversationnel, c'est de l'inférence. C'est important commercialement car l'inférence consomme de la puissance de calcul à chaque usage, et à grande échelle ces coûts s'accumulent, d'où la priorité concurrentielle et financière donnée à une inférence efficace.

L'un des termes qui montent le plus vite est l'agent d'IA. Un agent est un système qui ne se contente pas de répondre à une requête mais peut enchaîner une série d'actions pour atteindre un but : utiliser des outils, parcourir de l'information ou exécuter des étapes en séquence. Les agents marquent un passage de l'IA comme outil de questions-réponses vers une IA capable d'accomplir des tâches à plusieurs étapes, même si leur compétence et leur fiabilité réelles restent débattues.

D'autres termes reviennent souvent. Multimodal décrit les modèles qui gèrent plus d'un type d'entrée ou de sortie, comme texte et images ensemble. Les modèles à poids ouverts ou open source sont ceux dont les paramètres sont publiés, permettant à d'autres de les exécuter et de les adapter, à l'inverse des modèles fermés accessibles seulement via le service d'une entreprise. L'ingénierie de prompt désigne la conception de l'entrée donnée au modèle pour obtenir de meilleurs résultats.

Connaître ces termes n'exige pas de comprendre les mathématiques sous-jacentes, et le vocabulaire continuera d'évoluer avec le domaine. Mais une maîtrise pratique des LLM, des tokens, de l'entraînement, des hallucinations, de l'inférence et des agents couvre l'essentiel de ce qui paraît au quotidien, transformant des annonces autrement opaques en quelque chose qu'un lecteur non spécialiste peut suivre et évaluer.

Cet article est un résumé éditorial assisté par IA basé sur TechCrunch. L'image est une photo d'archive de Google DeepMind sur Pexels.

À lire ensuite

Des arbres immenses vus d'en bas sous une haute canopée forestière
Tech

Comment les arbres géants font-ils monter l'eau à 100 mètres ? Une nouvelle recherche l'explique

Parmi les plus grands arbres du monde, certains élèvent l'eau à plus de 100 mètres de leurs racines jusqu'à leurs feuilles les plus hautes, un exploit qui intrigue les scientifiques depuis longtemps. De nouveaux travaux suggèrent que les arbres géants y parviennent avec moins de difficulté que prévu, affinant notre compréhension du transport de l'eau dans les plantes.

Hacker Newsil y a 1 h