Des ingénieurs d’Apple démontrent à quel point le « raisonnement » de l’IA peut être fragile
Depuis un certain temps, des entreprises telles que OpenAI et Google vantent les capacités avancées de « raisonnement » comme le prochain grand pas dans leurs derniers modèles d’intelligence artificielle. Cependant, une nouvelle étude menée par six ingénieurs d’Apple montre que le « raisonnement » mathématique affiché par les modèles avancés de grande taille peut être extrêmement fragile et peu fiable face à des changements en apparence insignifiants apportés à des problèmes courants de référence.
La fragilité mise en évidence dans ces nouveaux résultats vient renforcer des recherches antérieures suggérant que l’utilisation de la correspondance probabiliste par les LLM (grands modèles de langage) manque de la compréhension formelle des concepts sous-jacents nécessaires à des capacités de raisonnement mathématique véritablement fiables. « Les LLM actuels ne sont pas capables de raisonner logiquement », émettent les chercheurs des hypothèses basées sur ces résultats. « Au lieu de cela, ils essaient de reproduire les étapes de raisonnement observées dans leurs données d’entraînement. »
Dans leur article « GSM-Symbolic: Comprendre les Limitations du Raisonnement Mathématique dans les Grands Modèles de Langage », publié actuellement en tant que prépublication, les six chercheurs d’Apple prennent comme point de départ l’ensemble normalisé de plus de 8 000 problèmes de mathématiques de niveau primaire de GSM8K, souvent utilisé comme référence pour les capacités de raisonnement complexe des LLM modernes. Ils adoptent ensuite une approche novatrice en modifiant une partie de cet ensemble de tests pour remplacer dynamiquement certains noms et nombres par de nouvelles valeurs. Ainsi, une question sur Sophie recevant 31 blocs de construction pour son neveu dans GSM8K pourrait se transformer en une question sur Bill recevant 19 blocs de construction pour son frère dans la nouvelle évaluation GSM-Symbolic.
Cette approche permet d’éviter toute « contamination des données » susceptible de résulter des questions statiques de GSM8K étant directement incorporées dans les données d’entraînement d’un modèle d’IA. En même temps, ces changements fortuits n’altèrent en rien la difficulté réelle du raisonnement mathématique inhérent, ce qui signifie que les modèles devraient théoriquement bien se comporter lorsqu’ils sont testés sur GSM-Symbolic par rapport à GSM8K.
Cependant, les chercheurs ont constaté que, lorsqu’ils ont testé plus de 20 LLM de pointe sur GSM-Symbolic, la précision moyenne a diminué dans l’ensemble par rapport à GSM8K, avec des baisses de performance allant de 0,3 % à 9,2 %, selon le modèle. Les résultats ont également montré une grande variance entre 50 exécutions différentes de GSM-Symbolic avec des noms et des valeurs différents. Des écarts allant jusqu’à 15 % de précision entre les meilleures et les moins bonnes exécutions étaient courants au sein d’un seul modèle, et, pour une raison inconnue, changer les nombres avait tendance à entraîner une moins bonne précision que changer les noms.
Ce type de variance, à la fois entre les différentes exécutions de GSM-Symbolic et par rapport aux résultats de GSM8K, est plus que surprenant, puisque, comme l’ont souligné les chercheurs, « les étapes de raisonnement globales nécessaires pour résoudre une question restent les mêmes. » Le fait que de si petits changements entraînent des résultats variables suggère aux chercheurs que ces modèles ne font pas de raisonnement « formel », mais tentent plutôt de réaliser une sorte de correspondance de motifs en interne, alignant les questions données et les étapes de solution avec des questions similaires vues dans les données d’entraînement.
Néanmoins, la variance globale observée pour les tests GSM-Symbolic était souvent relativement faible dans l’ensemble. Par exemple, ChatGPT-4o d’OpenAI est passé d’une précision de 95,2 % sur GSM8K à une précision encore impressionnante de 94,9 % sur GSM-Symbolic. C’est un taux de réussite assez élevé utilisant l’un ou l’autre des points de référence, que le modèle utilise ou non un raisonnement « formel » en coulisses (bien que la précision totale de nombreux modèles chute abruptement lorsque les chercheurs ajoutent simplement une ou deux étapes logiques supplémentaires aux problèmes).
En revanche, les LLM testés ont obtenu des résultats bien plus mauvais lorsque les chercheurs d’Apple ont modifié le benchmark GSM-Symbolic en ajoutant des « déclarations apparemment pertinentes mais finalement insignifiantes » aux questions. Pour cet ensemble de tests GSM-NoOp (abrégé de « aucune opération »), une question sur le nombre de kiwis qu’une personne cueille sur plusieurs jours pourrait être modifiée pour inclure le détail incident que « cinq d’entre eux [les kiwis] étaient un peu plus petits que la moyenne. »
L’ajout de ces leurres a entraîné ce que les chercheurs ont qualifié de « baisses de performance catastrophiques » en matière de précision par rapport à GSM8K, allant de 17,5 % à un impressionnant 65,7 % selon le modèle testé. Ces importantes chutes de précision mettent en lumière les limites inhérentes de l’utilisation de la simple « correspondance de motifs » pour « convertir des déclarations en opérations sans vraiment en comprendre le sens », écrivent les chercheurs.
En conclusion, même si ces modèles d’IA peuvent sembler impressionnants dans leur capacité d’analyse et de raisonnement mathématique, il est important de reconnaître leurs limitations en termes de fiabilité et de résistance face à des variantes mineures. Il semble clair que des progrès supplémentaires sont nécessaires pour développer des capacités de raisonnement mathématique plus solides et fiables dans les modèles d’intelligence artificielle de nouvelle génération.