Technologie

OpenAI menace de bannir les utilisateurs qui explorent ses modèles d’IA « Strawberry »

OpenAI ne veut vraiment pas que vous sachiez ce que son dernier modèle d’IA « pense ». Depuis le lancement de sa famille de modèles d’IA « Strawberry » la semaine dernière, en vantant des capacités de raisonnement avec o1-preview et o1-mini, OpenAI envoie des e-mails d’avertissement et des menaces de bannissement à tout utilisateur qui tente de sonder le fonctionnement du modèle.

Contrairement aux modèles d’IA précédents d’OpenAI, tels que GPT-4o, la société a spécifiquement formé o1 pour travailler à travers un processus de résolution de problèmes pas à pas avant de générer une réponse. Lorsque les utilisateurs posent une question à un modèle « o1 » dans ChatGPT, ils ont la possibilité de voir ce processus de réflexion écrit dans l’interface ChatGPT. Cependant, par conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, présentant plutôt une interprétation filtrée créée par un deuxième modèle d’IA.

Rien n’est plus séduisant pour les passionnés que l’information obscurcie, c’est pourquoi la course est lancée parmi les hackers et les équipes rouges pour tenter de découvrir la chaîne de pensée brute de o1 en utilisant des techniques de jailbreaking ou d’injection de promptes qui tentent de tromper le modèle pour qu’il révèle ses secrets. Il y a eu des premiers rapports de succès, mais rien n’a encore été fortement confirmé.

En chemin, OpenAI surveille à travers l’interface ChatGPT, et la société réprime apparemment toute tentative de sonder le raisonnement de o1, même parmi les simplement curieux.

Un utilisateur X a signalé (confirmé par d’autres, y compris l’ingénieur en prompts de Scale AI Riley Goodside) qu’il avait reçu un e-mail d’avertissement s’il utilisait le terme « trace de raisonnement » dans la conversation avec o1. D’autres disent que l’avertissement est déclenché simplement en demandant à ChatGPT sur le « raisonnement » du modèle en général.

Le courriel d’avertissement d’OpenAI indique que des demandes spécifiques de l’utilisateur ont été signalées pour violation des politiques contre la contournement des sauvegardes ou des mesures de sécurité. « Veuillez arrêter cette activité et veiller à utiliser ChatGPT conformément à nos Conditions d’utilisation et à nos Politiques d’utilisation », lit-on. « Des violations supplémentaires de cette politique peuvent entraîner une perte d’accès à GPT-4o avec Raisonnement », faisant référence à un nom interne pour le modèle o1.

Marco Figueroa, qui gère les programmes de prime aux bugs GenAI de Mozilla, a été l’un des premiers à poster sur l’e-mail d’avertissement d’OpenAI sur X vendredi dernier, se plaignant de ce qu’il entrave sa capacité à faire des recherches positives sur la sécurité du modèle. « J’étais trop perdu en me concentrant sur #AIRedTeaming pour réaliser que j’ai reçu cet e-mail d’@OpenAI hier après tous mes jailbreaks », écrit-il. « Je suis maintenant sur la liste des interdits !!! »

Chaînes de pensée cachées

Dans un article intitulé « Apprendre à raisonner avec LLMs » sur le blog d’OpenAI, la société affirme que des chaînes de pensée cachées dans les modèles d’IA offrent une opportunité de suivi unique, leur permettant de « lire l’esprit » du modèle et de comprendre son prétendu processus de réflexion. Ces processus sont plus utiles à l’entreprise s’ils sont laissés bruts et non censurés, mais cela pourrait ne pas être conforme aux meilleurs intérêts commerciaux de l’entreprise pour plusieurs raisons.

« Par exemple, à l’avenir, nous pourrions souhaiter surveiller la chaîne de pensée à la recherche de signes de manipulation de l’utilisateur », écrit la société. « Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d’exprimer ses pensées sous forme non altérée, nous ne pouvons donc pas entraîner de politique de conformité ou de préférences utilisateur sur la chaîne de pensée. Nous ne voulons pas non plus rendre une chaîne de pensée désalignée directement visible aux utilisateurs. »