
Pour cette étude, Lindsey et ses collègues ont travaillé pour établir certains de ces bases. Des recherches antérieures ont montré que diverses dimensions du comportement des LLM s'ils parlent de mariages à traits persistants tels que la sycophance– sont associés à des modèles d'activité spécifiques dans les neurones simulés qui constituent des LLM. Ces modèles peuvent être écrits comme une longue chaîne de nombres, dans laquelle chaque nombre représente à quel point un neurone spécifique est actif lorsque le modèle exprime ce comportement.
Ici, les chercheurs se sont concentrés sur les personnages sycophantiques, «malsants» et hallucinants – trois types que les concepteurs de LLM pourraient vouloir éviter dans leurs modèles. Pour identifier ces modèles, l'équipe a conçu un pipeline entièrement automatisé qui peut cartographier ce modèle étant donné une brève description de texte d'une personne. En utilisant cette description, un LLM séparé génère des invites qui peuvent provoquer à la fois le personnage cible – paral, le mal – et une personnalité opposée – bon. Ce LLM séparé est également utilisé pour évaluer si le modèle étudié se comporte en fonction du bien ou de la mauvaise personnalité. Pour identifier le modèle d'activité maléfique, les chercheurs soustrayaient l'activité moyenne du modèle en bon mode de son activité moyenne en mode maléfique.
Lorsque, dans les tests ultérieurs, les LLM ont généré des réponses particulièrement sycophantiques, perverses ou hallucinatoires, ces mêmes schémas d'activité avaient tendance à émerger. C'est un signe que les chercheurs pourraient éventuellement construire un système pour suivre ces modèles et alerter les utilisateurs lorsque leurs LLMS les sucent ou hallucinaient, dit Lindsey. «Je pense que quelque chose comme ça serait vraiment précieux», dit-il. « Et c'est un peu là que j'espère obtenir. »
Il ne suffit cependant pas de détecter ces personnages. Les chercheurs veulent les empêcher d'émerger en premier lieu. Mais empêcher le comportement de LLM peu recommandable est difficile. De nombreux LLM apprennent de la rétroaction humaine, qui les forme à se comporter conformément à la préférence des utilisateurs, mais peut également les pousser à devenir excessivement obséquieux. Et récemment, les chercheurs ont documenté un phénomène appelé «Un désalignement émergent», « dans quels modèles formés sur des solutions incorrectes aux problèmes mathématiques ou aux extraits de code buggy apprennent également à produire des réponses contraires à l'éthique à un large éventail de requêtes utilisateur.
D'autres chercheurs ont testé une approche appelée «direction», dans laquelle les modèles d'activité au sein des LLM sont délibérément stimulés ou supprimés afin d'obtenir ou d'empêcher le comportement correspondant. Mais cette approche a quelques inconvénients clés. La suppression des traits indésirables comme les mauvaises tendances peut également altérer les performances de la LLM sur des tâches apparemment sans rapport. Et les LLM de direction consomme des ressources supplémentaires et de calcul, selon Aaron Mueller, professeur adjoint d'informatique à l'Université de Boston, qui n'a pas été impliqué dans l'étude. Si un LLM dirigé était déployé à grande échelle à des centaines de milliers d'utilisateurs, ces coûts de direction s'additionneraient.
L'équipe anthropique a donc expérimenté une approche différente. Plutôt que de tourner désactivé Les schémas d'activité maléfique ou sycophantique après l'entraînement, ils les ont tournés sur Pendant la formation. Lorsqu'ils ont formé ces modèles sur des ensembles de données erronés qui déclencheraient normalement un comportement maléfique, ils sont plutôt aussi utiles et inoffensifs que jamais.