Des chercheurs affirment qu’un outil de transcription alimenté par l’IA utilisé dans les hôpitaux invente des choses que personne n’a jamais dites
San Francisco – La société technologique OpenAI a vanté son outil de transcription alimenté par l’intelligence artificielle, Whisper, comme disposant d’une précision et d’une robustesse proches du niveau humain. Cependant, Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte entiers ou même des phrases entières, selon des entretiens avec plus d’une douzaine d’ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certaines des inventions de texte – connues dans l’industrie sous le nom d’hallucinations – peuvent inclure des commentaires raciaux, des discours violents et même des traitements médicaux imaginaires.
Les experts ont souligné que de telles fabrications posent problème car Whisper est utilisé dans une multitude d’industries à travers le monde pour traduire et transcrire des entretiens, générer du texte dans les technologies grand public et créer des sous-titres pour les vidéos. Plus préoccupant encore, selon eux, est la précipitation des centres médicaux à utiliser des outils basés sur Whisper pour transcrire les consultations des patients avec les médecins, malgré les avertissements d’OpenAI indiquant que l’outil ne devrait pas être utilisé dans des « domaines à haut risque ».
L’ampleur du problème est difficile à discerner, mais les chercheurs et les ingénieurs ont déclaré qu’ils rencontré fréquemment des hallucinations de Whisper dans leur travail. Un chercheur de l’Université du Michigan menant une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans 8 des 10 transcriptions audio qu’il a inspectées, avant de commencer à améliorer le modèle. Un ingénieur en apprentissage automatique a déclaré avoir découvert initialement des hallucinations dans environ la moitié des plus de 100 heures de transcriptions de Whisper qu’il a analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacun des 26 000 transcriptions qu’il a créées avec Whisper.
Les problèmes persistent même dans de courts échantillons audio bien enregistrés. Une récente étude menée par des informaticiens a découvert 187 hallucinations dans plus de 13 000 extraits audio clairs qu’ils ont examinés. Cette tendance pourrait entraîner des dizaines de milliers de transcriptions erronées sur des millions d’enregistrements, ont déclaré les chercheurs.
De tels erreurs pourraient avoir des « conséquences vraiment graves », en particulier dans les hôpitaux, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison-Blanche pour l’administration Biden jusqu’à l’année dernière.
Personne ne souhaite un mauvais diagnostic, a déclaré Nelson, professeur à l’Institut d’études avancées de Princeton. « Il devrait y avoir une norme plus élevée. »
Whisper est également utilisé pour créer des sous-titres pour les sourds et malentendants – une population particulièrement exposée aux transcriptions erronées. C’est parce que les sourds et malentendants n’ont aucun moyen de repérer les fabrications « cachées parmi tout ce texte », a déclaré Christian Vogler, sourd, qui dirige le Programme d’accès à la technologie de l’Université Gallaudet.
La prévalence de telles hallucinations a conduit experts, défenseurs et anciens employés d’OpenAI à appeler le gouvernement fédéral à envisager une réglementation de l’IA. Au minimum, ils ont déclaré qu’OpenAI devait s’attaquer à ce défaut.
« Donc, il s’agit d’une question traînante », a déclaré l’…