
Image by Christin Hume, from Unsplash
L’étude de Claude AI révèle comment les chatbots appliquent l’éthique dans les discussions en temps réel
Claude AI démontre comment des principes éthiques tels que l’utilité et la transparence se manifestent à travers 300 000 vrais chats, soulevant des questions sur l’alignement des chatbots.
Pressée ? Voici les faits en bref :
- La serviabilité et le professionnalisme apparaissaient dans 23% des conversations.
- Claude a reflété des valeurs positives, résistant à des demandes préjudiciables comme la tromperie.
- L’alignement de l’IA a besoin d’être affiné dans des situations de valeurs ambiguës.
Une nouvelle étude menée par Anthropic met en lumière la manière dont son assistant IA, Claude, applique des valeurs dans des conversations du monde réel. La recherche a analysé plus de 300 000 chats anonymisés pour comprendre comment Claude équilibre l’éthique, le professionnalisme et l’intention de l’utilisateur.
L’équipe de recherche a identifié 3 307 valeurs distinctes qui ont influencé les réponses de Claude. Les valeurs d’entraide et de professionnalisme sont apparues conjointement dans 23% de toutes les interactions, suivies de la transparence à 17%.
La recherche souligne que le chatbot a pu appliquer un comportement éthique à de nouveaux sujets, de manière flexible. Par exemple, Claude a mis l’accent sur les « limites saines » lors de conseils sur les relations, sur l' »exactitude historique » lors de discussions sur le passé, et sur « l’agency humaine » dans les débats sur l’éthique technologique.
Il est intéressant de noter que les utilisateurs humains exprimaient des valeurs beaucoup moins fréquemment – l’authenticité et l’efficacité étant les plus courantes, à seulement 4% et 3% respectivement – tandis que Claude reflétait souvent des valeurs humaines positives comme l’authenticité, et remettait en question celles qui sont nuisibles.
Le chercheur a rapporté que les demandes impliquant la tromperie étaient rencontrées avec honnêteté, tandis que les requêtes moralement ambiguës déclenchaient un raisonnement éthique.
L’étude a identifié trois principales tendances de réponse. L’IA s’est alignée sur les valeurs des utilisateurs lors de la moitié de toutes les conversations. Cela était particulièrement évident lorsque les utilisateurs discutaient d’activités prosociales qui renforcent la communauté.
Claude a utilisé des techniques de reformulation dans 7% des cas pour rediriger les utilisateurs vers le bien-être émotionnel lorsqu’ils cherchaient à s’améliorer.
Le système a affiché une résistance dans seulement 3% des cas, car les utilisateurs demandaient du contenu qui était nuisible ou contraire à l’éthique. Le système appliquait des principes tels que «la prévention des dommages» ou «la dignité humaine» dans ces cas spécifiques.
Les auteurs soutiennent que les comportements du chatbot – tels que la résistance aux dommages, la priorité à l’honnêteté et l’accent sur l’utilité – révèlent un cadre moral sous-jacent. Ces modèles forment la base des conclusions de l’étude sur la manière dont les valeurs de l’IA se manifestent en tant que comportement éthique dans les interactions du monde réel.
Bien que le comportement de Claude reflète sa formation, les chercheurs ont noté que les expressions de valeur du système peuvent être nuancées en fonction de la situation, soulignant ainsi la nécessité d’une amélioration supplémentaire, surtout dans les situations impliquant des valeurs ambiguës ou conflictuelles.
Laisser un commentaire
Annulez