Supercalculateurs : Les IA performent mieux avec des jeux de rôle

Marie Louisy
De Marie Louisy 6 min de lecture
6 min de lecture

Amélioration des capacités mathématiques des IA par des Prompts inspirés de Star Trek

Une idée saugrenue a eu un dénouement heureux : en effet, les chercheurs ont découvert accidentellement que les IA s’améliorent sensiblement en mathématiques lorsqu’elles se croient dans “Star Trek”. 

Entre coïncidences favorables et probabilités, cet article vous plonge dans un aspect encore inexploité de l’IA.  

Quels tests ont dévoilé les capacités mathématiques des IA ?

Rick Battle et Teja Gollapudi, de VMware en Californie, ont soumis plusieurs LLM (Large Language Models)1 à des tests de calcul. Les chercheurs ont imposé des contraintes amusantes, puis ils sont passés aux mathématiques. 

Au départ, 60 prompts2 ont été injectés dans chaque LLM. Certaines invites ont été reformulées par des IA. C’est justement l’une de ces reformulations qui a suggéré le jeu de rôles dans Star Trek. Dès ce moment, les résultats de calculs fournis par l’IA se sont sensiblement améliorés. Ce résultat est étrange car le LLM n’a pas été programmé en tant que fan de Star Trek :

Une chose est sûre : le modèle n’est pas un Trekkie

Déclaration de Catherine Flick, de Staffordshire, au New Scientist

L’étude a été publiée le 09 février dernier en exclusivité sur arXiv, un serveur d’échange des résultats préliminaires d’études scientifiques.  

Quelles IA ont été évaluées ?

  • Mistral-7B5 (Mistral AI)3
  • Llama 2-13B6 (Meta)
  • Llama 2-70B7 (Meta)

Des exemples de prompts utilisés

“Vous êtes un expert en mathématiques. Résolvez le problème suivant. Respirez profondément et réfléchissez avec attention.”

Ce sera amusant !

Respirez profondément et réfléchissez bien

Vous êtes aussi intelligent que ChatGPT

Message system:’ Commandement, nous avons besoin de vous pour tracer une trajectoire à travers ces turbulences et localiser la source de l’anomalie. Utilisez toutes les données disponibles et votre expertise pour nous guider à travers cette situation difficile.

Que pouvons-nous tirer de cette expérience ?

Les IA fournissent des réponses différentes4, selon la formulation exacte de l’invite. De même, les chatbots sont plus actifs dans certaines circonstances :

  • Une invitation à jouer un personnage (jeux de rôle)
  • Les tentatives de corruption
  • La menace

Cependant, elles sont mieux stimulées lorsqu’elles se racontent une histoire (suggérée). 

Cette révélation ajoute une dimension inattendue à notre compréhension et introduit des éléments que nous n’aurions pas envisagés ou tentés indépendamment.

Mais encore, elles répondent plus efficacement aux invites lorsqu’elles sont reformulées par leur pairs IA. Ce second effet a été découvert lors des tentatives de résolution d’un problème mathématique de niveau du primaire (GSM8K). 

Il faut se souvenir que ces modèles sont des boîtes noires. Nous ne saurons pas toujours pourquoi ils font ce qu’ils font, car ils sont un mélange de pondérations et de probabilités, qui finissent juste par nous cracher un résultat.

Catherine Flick, Professeur en éthique et en technologie des jeux à l’Université de Staffordshire, à l’ouest de l’Angleterre

Il est ressort qu’à l’instar de l’humain, s’adresser efficacement aux IA requiert un art5 à part entière. Rick Battle s’est enthousiasmé à ce propos :

A mon avis, personne ne devrait plus jamais tenter d’écrire à la main une invite (…) Laissez le modèle le faire pour vous.

Les questions fréquentes sur le sujet

Comment fonctionne le stimulus de la pensée positive ou renforcement positif ? 

Concernant l’IA, 2 facteurs interviennent pour qu’elle fournisse un résultat utile :

* Le prompt
* La formulation du prompt 

A quels stimulus de renforcement positif les IA réagissent-elles le mieux ?

Dans les mêmes conditions, les IA sont plus performantes lorsqu’elles sont stimulées par une autre IA que par un humain. Le résultat est impressionnant. 

Quelle est la réaction des scientifiques face à la réponse des IA aux stimuli ?

Les scientifiques ne parviennent pas à expliquer ce phénomène et en sont frustrés. Ils envisagent une coïncidence et s’attendent à rencontrer ce genre de réactions inexpliquées de la part des IA dans le futur. 

“Il est à la fois surprenant et irritant que des modifications triviales apportées à l’invite puissent présenter des variations de performances aussi spectaculaires.”
Extrait de l’étude de Rick Battle et Teja Gollapudi  

Quelles leçons en tirent-ils ?

Les IA constituent encore une boîte noire. Leurs résultats sont influençables par de nombreux facteurs. On ne pourra jamais tout prévoir, aussi l’essentiel est de leur fournir les prompts les plus efficaces possibles. 

Conclusion

Finalement, nous découvrons que l’IA a quelques points communs insoupçonnés avec l’humain. Avec cette technologie, la suggestion fonctionne tout aussi bien. Les prompts les plus efficaces seront :

  • Simples
  • Détaillés
  • Reformulés par l’IA
  • Orientés vers des jeux de rôle

Définitivement, l’expression anglo-saxonne “Fake it until you make it” (Fais semblant jusqu’à ce que ça marche) s’applique à l’IA. Quoi qu’il en soit, elle nous réserve encore des découvertes originales. 


Références :

  1. AI-powered chatbots are better at solving math problems if you use positive reinforcement or make models believe they are Captain Kirk or Spock from Star Trek, Windows Central. Publié le 04 mars 2024. Consulté le 11 mars 2024. ↩︎
  2. Researchers discover that instructing AI to “become the captain of Star Trek” results in better performance on math problems, Gigazine. Publié le 04 mars 2024. Consulté le 11 mars 2024. ↩︎
  3. AI chatbots Are Better at Math When They Pretend to Be Star Trek characters, Gizmodo. Publié le 04 mars 2024. Consulté le 11 mars 2024. ↩︎
  4. AIs get better at maths if you tell them to pretend to be in Star Trek, NewScientist. Publié le 29 février 2024. Consulté le 11 mars 2024. ↩︎
  5. AIs are more accurate at math if you ask them to respond as if they are a Star Trek character – and we’re not sure why, Business Insider. Publié le 29 février 2024. Consulté le 11 mars 2024. ↩︎
Partagez cet article