Partageons la même vision et construisons ensemble vos futurs projets avec la puissante de l' IA générative.Vous n'avez pas les solutions ou vous ne savez pas par où commencer ?
Parlons maintenant de l'IA dans votre organisation.
Les scientifiques découvrent le moment où l’IA comprend vraiment le langage
Les réseaux neuronaux traitent d’abord les phrases comme des énigmes résolues par l’ordre des mots, mais après une lecture suffisante, un point de bascule les plonge dans le sens des mots – une « transition de phase » abrupte, rappelant l’eau se transformant en vapeur. En révélant ce changement caché, les chercheurs ouvrent une fenêtre sur la façon dont les modèles de transformateurs tels que ChatGPT deviennent plus intelligents et suggèrent de nouvelles façons de les rendre plus simples, plus sûrs et plus prévisibles.
Des chercheurs ont découvert que les réseaux de transformateurs passent brusquement du suivi de la position des mots à la focalisation sur le sens dès que les données d’entraînement franchissent un seuil critique, reflétant un changement de phase physique et éclairant le fonctionnement interne de l’IA.
Une nouvelle étude publiée dans le Journal of Statistical Mechanics: Theory and Experiment ( JSTAT ) révèle une partie de ce mystère. Elle montre que lorsque de petites quantités de données sont utilisées pour l’apprentissage, les réseaux neuronaux s’appuient initialement sur la position des mots dans une phrase. Cependant, lorsque le système est exposé à suffisamment de données, il adopte une nouvelle stratégie basée sur le sens des mots. L’étude révèle que cette transition se produit brutalement, une fois qu’un seuil critique de données est franchi – un peu comme une transition de phase dans les systèmes physiques. Ces résultats offrent des informations précieuses pour comprendre le fonctionnement de ces modèles.
Tout comme un enfant qui apprend à lire, un réseau neuronal commence par comprendre les phrases en fonction de la position des mots : selon leur position dans la phrase, le réseau peut déduire leurs relations (sujets, verbes, compléments d’objet ?). Cependant, à mesure que l’apprentissage se poursuit – le réseau « continue à apprendre » – un changement se produit : le sens des mots devient la principale source d’information.
C’est ce qui se produit, explique la nouvelle étude, dans un modèle simplifié du mécanisme d’auto-attention – un élément essentiel des modèles de langage transformateurs, comme ceux que nous utilisons quotidiennement (ChatGPT, Gemini, Claude, etc.). Un transformateur est une architecture de réseau neuronal conçue pour traiter des séquences de données, comme du texte, et constitue l’épine dorsale de nombreux modèles de langage modernes. Les transformateurs se spécialisent dans la compréhension des relations au sein d’une séquence et utilisent le mécanisme d’auto-attention pour évaluer l’importance de chaque mot par rapport aux autres.
« Pour évaluer les relations entre les mots », explique Hugo Cui, chercheur postdoctoral à l’Université Harvard et premier auteur de l’étude, « le réseau peut utiliser deux stratégies, dont l’une consiste à exploiter la position des mots. » Dans une langue comme l’anglais, par exemple, le sujet précède généralement le verbe, qui précède à son tour l’objet. « Mary eats the apple » est un exemple simple de cette séquence.
« C’est la première stratégie qui émerge spontanément lors de l’entraînement du réseau », explique Cui. « Cependant, dans notre étude, nous avons observé que si l’entraînement se poursuit et que le réseau reçoit suffisamment de données, à un certain moment – une fois un seuil franchi – la stratégie change brutalement : le réseau commence à s’appuyer sur le sens. »
« Lorsque nous avons conçu ce travail, nous souhaitions simplement étudier les stratégies, ou la combinaison de stratégies, que les réseaux adopteraient. Mais nos résultats ont été quelque peu surprenants : en dessous d’un certain seuil, le réseau s’appuyait exclusivement sur la position, tandis qu’au-dessus, il se basait uniquement sur la signification. »
Cui décrit ce changement comme une transition de phase, empruntant un concept à la physique. La physique statistique étudie les systèmes composés d’un nombre considérable de particules (comme les atomes ou les molécules) en décrivant statistiquement leur comportement collectif. De même, les réseaux neuronaux – fondement de ces systèmes d’IA – sont composés d’un grand nombre de « nœuds », ou neurones (nommés par analogie avec le cerveau humain), chacun connecté à de nombreux autres et effectuant des opérations simples. L’intelligence du système naît de l’interaction de ces neurones, un phénomène qui peut être décrit par des méthodes statistiques.
C’est pourquoi nous pouvons parler d’un changement brutal du comportement du réseau comme d’une transition de phase, de la même manière que l’eau, dans certaines conditions de température et de pression, passe de l’état liquide à l’état gazeux.
« Il est important de comprendre, d’un point de vue théorique, comment le changement de stratégie se produit de cette manière », souligne Cui. « Nos réseaux sont simplifiés par rapport aux modèles complexes avec lesquels nous interagissons quotidiennement, mais ils peuvent nous donner des pistes pour commencer à comprendre les conditions qui conduisent un modèle à se stabiliser sur une stratégie ou une autre. Ces connaissances théoriques pourraient, espérons-le, servir à l’avenir à rendre l’utilisation des réseaux neuronaux plus efficace et plus sûre. »
La recherche de Hugo Cui, Freya Behrens, Florent Krzakala et Lenka Zdeborová, intitulée « Une transition de phase entre l’apprentissage positionnel et sémantique dans un modèle soluble d’attention au produit scalaire », est publiée dans JSTAT dans le cadre du numéro spécial Machine Learning 2025 et est incluse dans les actes de la conférence NeurIPS 2024.
L’article est à lire ici
Articles associés
Osez l’IA
Lancé ce mardi 1er juillet, le plan national « Osez l’IA » vise à accélérer la diffusion de l’intelligence artificielle (IA) dans toutes les entreprises françaises, et en particulier dans les petites et moyennes entreprises et les entreprises de taille intermédiaire
En savoir plus
Recap’ de l’actu Google AI
Voici un récapitulatif des principales mises à jour IA de juin chez Google, notamment de nouvelles options de recherche avec le mode IA, une nouvelle façon de partager publiquement vos carnets NotebookLM et une nouvelle IA pour aider les chercheurs à mieux comprendre le génome humain.
En savoir plusLancement de Gemini CLI
Google a récement annoncé le lancement de Gemini CLI : Un agent IA à destination des développeurs. Gemini CLI se présente comme un outil Open‑source et extensible, qui pourrait simplifier le travail des développeurs. On va suivre cette annonce et l’impact sur l’eco-système IA
En savoir plus