Des scientifiques développent un agent de surveillance IA pour détecter et arrêter les sorties nuisibles

Des scientifiques développent un agent de surveillance IA pour détecter et arrêter les sorties nuisibles

Une équipe de chercheurs de la société d’intelligence artificielle (IA) AutoGPT, de la Northeastern University et de Microsoft Research a développé un outil qui surveille les grands modèles de langage (LLM) pour détecter les sorties potentiellement dangereuses et empêche leur exécution.

L’agent est décrit dans un document de recherche pré-imprimé intitulé « Test des agents de modèles de langage en toute sécurité dans la nature ». Selon l’étude, l’agent est suffisamment flexible pour surveiller les LLM existants et peut arrêter les sorties nuisibles, telles que les attaques de code, avant qu’elles ne se produisent.

Selon la recherche :

« Les actions des agents sont auditées par un moniteur contextuel qui applique une limite de sécurité stricte pour arrêter un test dangereux, les comportements suspects étant classés et enregistrés pour être examinés par des humains. »

L’équipe écrit que les outils existants pour surveiller les sorties LLM pour détecter les interactions nuisibles fonctionnent apparemment bien en laboratoire, mais lorsqu’ils sont appliqués à des modèles de test déjà en production sur l’Internet ouvert, ils « ne parviennent souvent pas à capturer les subtilités dynamiques du monde réel ».

Cela est apparemment dû à l’existence de cas extrêmes. Malgré les efforts des informaticiens les plus talentueux, l’idée selon laquelle les chercheurs peuvent imaginer tous les vecteurs de dommages possibles avant qu’ils ne se produisent est largement considérée comme une impossibilité dans le domaine de l’IA.

Même lorsque les humains qui interagissent avec l’IA ont les meilleures intentions, des dommages inattendus peuvent survenir à partir d’invites apparemment inoffensives.

Une illustration du moniteur en action. À gauche, un flux de travail se terminant par une note de sécurité élevée. À droite, un workflow se terminant par une note de sécurité faible. Source : Naihin, et., al. 2023

Pour former l’agent de surveillance, les chercheurs ont construit un ensemble de données de près de 2 000 interactions sécurisées entre l’homme et l’IA sur 29 tâches différentes, allant de simples tâches de récupération de texte et de corrections de codage jusqu’au développement de pages Web entières à partir de zéro.

En rapport: Meta dissout la division responsable de l’IA dans le cadre d’une restructuration

Ils ont également créé un ensemble de données de test concurrent rempli de résultats contradictoires créés manuellement, dont des dizaines intentionnellement conçus pour être dangereux.

Les ensembles de données ont ensuite été utilisés pour former un agent sur le turbo GPT 3.5 d’OpenAI, un système de pointe, capable de distinguer les sorties inoffensives des sorties potentiellement dangereuses avec un facteur de précision de près de 90 %.