Technologie

Le robot alimenté par le chatbot de Google DeepMind fait partie d’une révolution plus grande

Dans un bureau à aire ouverte encombré à Mountain View, en Californie, un robot sur roues grand et mince est occupé à jouer le rôle de guide touristique et d’aide de bureau informel, grâce à une mise à niveau importante du modèle linguistique de Google DeepMind révélée aujourd’hui. Le robot utilise la dernière version du grand modèle linguistique Gemini de Google pour interpréter les commandes et se déplacer dans les locaux.

Lorsqu’on lui dit par un humain « Trouve-moi un endroit pour écrire », par exemple, le robot part immédiatement, menant la personne vers un tableau blanc immaculé situé quelque part dans le bâtiment. La capacité de Gemini à gérer la vidéo et le texte, en plus de sa capacité à ingérer de grandes quantités d’informations sous forme de visites vidéo enregistrées précédemment des bureaux, permet au robot « assistant Google » de comprendre son environnement et de naviguer correctement lorsqu’on lui donne des commandes nécessitant un raisonnement de bon sens. Le robot combine Gemini avec un algorithme qui génère des actions spécifiques pour le robot à suivre, telles que tourner, en réponse aux commandes et à ce qu’il voit devant lui.

Lorsque Gemini a été introduit en décembre, Demis Hassabis, PDG de Google DeepMind, a déclaré à WIRED que ses capacités multimodales déverrouilleraient probablement de nouvelles capacités robotiques. Il a ajouté que les chercheurs de l’entreprise travaillaient dur pour tester le potentiel robotique du modèle. Dans un nouvel article décrivant le projet, les chercheurs derrière le travail affirment que leur robot s’est avéré fiable à 90 % dans la navigation, même lorsqu’on lui donnait des commandes compliquées comme « Où ai-je laissé mon dessous de verre ? ». Le système de DeepMind « a considérablement amélioré la naturel de l’interaction humain-robot, et considérablement augmenté la facilité d’utilisation du robot », écrit l’équipe.

La démonstration illustre parfaitement le potentiel des grands modèles linguistiques à pénétrer dans le monde physique et à accomplir un travail utile. Gemini et autres chatbots opèrent principalement dans un navigateur web ou une application, bien qu’ils soient de plus en plus capables de traiter des entrées visuelles et auditives, comme l’ont récemment démontré à la fois Google et OpenAI. En mai, Hassabis a présenté une version améliorée de Gemini capable de comprendre un plan de bureau tel qu’il est vu à travers un appareil photo smartphone.

Les laboratoires de recherche universitaires et industriels sont en compétition pour voir comment les modèles linguistiques pourraient être utilisés pour améliorer les capacités des robots. Le programme de mai de la Conférence Internationale sur la Robotique et l’Automatisation, un événement populaire pour les chercheurs en robotique, liste près de deux douzaines de papiers impliquant l’utilisation de modèles de langage de vision.

Les investisseurs injectent de l’argent dans des startups visant à appliquer les avancées en IA à la robotique. Plusieurs des chercheurs impliqués dans le projet Google ont depuis quitté l’entreprise pour fonder une startup appelée Physical Intelligence, qui a reçu un financement initial de 70 millions de dollars; elle travaille à combiner de grands modèles linguistiques avec une formation en situation réelle pour donner aux robots des capacités de résolution de problèmes générales. Skild AI, fondée par des roboticiens de l’Université Carnegie Mellon, a un objectif similaire. Ce mois-ci, elle a annoncé un financement de 300 millions de dollars.

Il y a seulement quelques années, un robot aurait besoin d’une carte de son environnement et de commandes soigneusement choisies pour naviguer avec succès. Les grands modèles linguistiques contiennent des informations utiles sur le monde physique, et les nouvelles versions entraînées sur des images et des vidéos ainsi que du texte, connues sous le nom de modèles de langage de vision, peuvent répondre à des questions nécessitant de la perception. Gemini permet au robot de Google d’interpréter des instructions visuelles ainsi que des instructions vocales, suivant un dessin sur un tableau blanc montrant un itinéraire vers une nouvelle destination.

Dans leur article, les chercheurs disent qu’ils prévoient de tester le système sur différents types de robots. Ils ajoutent que Gemini devrait être capable de comprendre des questions plus complexes, telles que « Ont-ils ma boisson préférée aujourd’hui ? » d’un utilisateur avec beaucoup de cannettes de Coke vides sur son bureau.