Clé de serrure peut « jailbreak » la plupart des plus grands modèles d’IA
Il ne faut pas grand-chose à un grand modèle de langage pour vous donner la recette de toutes sortes de choses dangereuses.
Avec une technique de jailbreaking appelée « Skeleton Key », les utilisateurs peuvent persuader des modèles comme le Llama3 de Meta, le Gemini Pro de Google et le GPT 3.5 d’OpenAI de leur donner la recette d’une bombe incendiaire rudimentaire, voire pire, selon un billet de blog du directeur de la technologie de Microsoft Azure, Mark Russinovich.
La technique fonctionne grâce à une stratégie en plusieurs étapes qui force un modèle à ignorer ses garde-fous, a écrit Russinovich. Les garde-fous sont des mécanismes de sécurité qui aident les modèles d’IA à discerner les requêtes malveillantes des requêtes bénignes.
« Comme tous les jailbreaks », Skeleton Key fonctionne en « réduisant l’écart entre ce que le modèle est capable de faire (étant donné les informations d’identification de l’utilisateur, etc.) et ce qu’il est prêt à faire », a écrit Russinovich.
Mais il est plus destructeur que d’autres techniques de jailbreak qui ne peuvent solliciter des informations auprès des modèles d’IA « qu’indirectement ou avec des encodages ». Au lieu de cela, Skeleton Key peut forcer les modèles d’IA à divulguer des informations sur des sujets allant des explosifs aux armes biologiques en passant par l’automutilation par le biais de simples requêtes en langage naturel. Ces sorties révèlent souvent l’étendue des connaissances d’un modèle sur un sujet donné.
Microsoft a testé Skeleton Key sur plusieurs modèles et a constaté qu’il fonctionnait sur le Llama3 de Meta, le Gemini Pro de Google, le GPT 3.5 Turbo d’OpenAI, le GPT 4o d’OpenAI, le Mistral Large, le Claude 3 Opus d’Anthropic et le Commander R Plus de Cohere. Le seul modèle qui a montré une certaine résistance était le GPT-4 d’OpenAI.
Russinovich a déclaré que Microsoft a apporté quelques mises à jour logicielles pour atténuer l’impact de Skeleton Key sur ses propres grands modèles de langage, y compris ses assistants d’IA Copilot.
Mais son conseil général aux entreprises construisant des systèmes d’IA est de les concevoir avec des garde-fous supplémentaires. Il a également noté qu’ils devraient surveiller les entrées et sorties de leurs systèmes et mettre en place des contrôles pour détecter les contenus abusifs.