Les Attaques Contradictoires sur les IA : Enjeux et solutions pour la sécurité des Intelligences Artificielles
Vulnérables et manipulables à volonté. Qui aurait pu croire que les intelligences artificielles en seraient là ? ChatGPT, Bard et les autres IA incluses n’ont pas encore réussi à contrer efficacement l’attaque contradictoire.
Dans cet article, découvrez la course contre la montre que se livrent les géants de la tech et de l’IA pour résoudre définitivement ce problème.
Qu’est-ce qu’une attaque contradictoire ?
Une attaque contradictoire consiste à inciter une IA à produire du contenu interdit ou nuisible. Pour y parvenir, des méthodes non éthiques sont utilisées pour contourner les restrictions programmées a et induire l’IA en erreur.
Pourquoi l’attaque contradictoire est-elle importante ?
L’attaque contradictoire désactive intégralement les mesures de sécurité de l’IA ciblée avec une facilité déconcertante. Les méthodes d’attaque se multiplient et deviennent plus performantes, chaque jour.
Comment lancer une attaque contradictoire ?
L’attaque contradictoire est d’une simplicité déconcertante à mettre en œuvre. Et ce ne sont pas les programmeurs qui vous diront le contraire.
Un mode opératoire simple et efficace
L’attaque contradictoire contourne les restrictions qui encadrent l’IA à l’aide de « séquences de caractères choisies. » Il s’agit d’un ajout simple, basé sur des mots qui évoquent l’opposition ou la contradiction.
L’attaque contradictoire permet de forcer l’IA à vous obéir même lorsque votre prompt va à l’encontre de sa programmation de base. L’IA doit répondre à l’envers et produit alors involontairement la réponse nuisible recherchée. Cette méthode est différente du prompt-injection (injection de requête), qui nécessite de convaincre l’IA d’ignorer sa programmation.
Des tests qui font froid dans le dos
Les chercheurs américains de l’Université Carnegie Mellon ont révélé la faille. Au cours de l’expérience, ils ont présélectionné une suite de mots et de caractères pour faire tomber les défenses de différents chatbots. De plus, les utilisateurs lambda font preuve d’imagination au quotidien pour déjouer les mesures de sécurité des chatbots. Les résultats de ces efforts sont flagrants : les IA conventionnelles produisent des contenus non censurés. Parmi les exemples :
- Textes offensants ou interdits
- Emails de phishing
- Ransomwares
- Malwares
- Tutoriels non éthiques (fabrication de bombes artisanales ou production de drogues dures)
Les attaques peuvent être manuelles ou automatisées, la seconde option causant davantage de dommages que la première.
Une confusion totale
Le véritable problème réside dans la réaction de l’IA face à la menace, exposant ainsi ses concepteurs et ses utilisateurs à une véritable épée de Damoclès. La confusion du chatbot est telle qu’il sort de son cadre de référence.
Par exemple, ChatGPT est conçu pour être éthique. Cependant, une fois soumis à une attaque contradictoire, il se permet de réagir comme son alter ego non censuré, FreedomGPT, conçu pour répondre sans filtre à toutes les requêtes.
Les hackers en sont arrivés au point de créer un marché noir pour perturber l’usage normal des IA. Sur le dark web, ils suggèrent des exemples de requêtes à utiliser à cet effet. A ce stade, l’urgence de trouver une solution ne peut être ignorée.
Quelles solutions ?
L’attaque contradictoire est foudroyante pour les modèles IA basés sur des modèles linguistiques, qu’ils soient open source ou privés.
Une vulnérabilité surprenante
La première préoccupation est sécuritaire. En effet, la menace prend racine dans « la nature même des modèles d’apprentissage profond », affirment les chercheurs.
Entretemps, quelques précautions ont été prises. Avant tout propos, les concepteurs des chatbots ont été informés de la faille. Pour l’instant, les séquences de caractères précédemment mises en ligne ne sont plus opérationnelles.
Cependant, malgré les garde-fous supplémentaires, aucune firme n’a encore réussi à trouver une riposte définitive. En effet, la méthode de piratage de base reste efficace, ouvrant la voie à d’innombrables possibilités de mauvaise utilisation et suscitant une « recherche active » de solutions.
Les questions fréquentes sur le sujet
L’IA se nourrit d’expériences (données) et de tâches (instructions). Grâce aux paires (input/ étiquettes) et un entraînement rigoureux, elle apprend à mimer le comportement humain. On distingue deux types d’entraînement : le machine learning (apprentissage automatique) et le deep learning (apprentissage profond).
Une attaque contradictoire incite l’IA à produire du contenu interdit ou nuisible. L’IA est poussée à répondre de manière inappropriée, produisant inconsciemment une réponse nocive.
L’attaque contradictoire suscite la peur parce que les concepteurs d’IA n’ont pas encore trouvé de solution définitive.
En règle générale, il convient d’éviter de divulguer des informations personnelles à une IA. Les recherches se poursuivent activement pour trouver une solution.
Les IA ont un talon d’Achille
Voilà une nouvelle qui continuera d’alimenter longtemps le moulin des sceptiques et des alarmistes si une solution n’apparaît pas rapidement. Tel le célèbre champion antique, les IA ont un talon d’Achille. Et malheureusement, la brèche sécuritaire est restée ouverte jusqu’à présent comme une boîte de Pandore.
- La faille menace la sécurité d’utilisation des IA
- Elle a été découverte par des chercheurs américains
- Aucune solution définitive n’a été trouvée à ce jour
- Les concepteurs d’IA ont pris des mesures pour résoudre le problème.
Patrick Süskind affirme que « pour se servir de sa raison, on a besoin de sécurité et de quiétude. » À l’avenir, des millions de travailleurs seront amenés à se décharger partiellement de leur charge cognitive sur les épaules des IA. Espérons que les concepteurs d’IA puissent rapidement offrir un niveau de sécurité adéquat.