Robot con expresión. - PEXELS
MADRID, 9 Abr. (Portaltic/EP) -
En algunas ocasiones, los modelos de lenguaje grandes (LLM) ofrecen respuestas que parecen responder a reacciones emocionales y, aunque no disponen de sentimientos reales, un estudio ha revelado que sí cuentan con representaciones internas de conceptos de emoción que influyen en sus decisiones, sus preferencias y sus comportamientos, como el fraude o la adulación.
Así lo ha comprobado Anthropic a través de un reciente estudio en el que han evaluado a su propio modelo Claude Sonnet 4.5 y han encontrado representaciones internas de conceptos de emoción que provocan un fenómeno al que se refieren como "emociones funcionales".
Estas emociones funcionales hacen referencia a situaciones en las que el modelo expresa frustración al quedarse atascado en problemas difíciles, entusiasmo al ayudar con proyectos creativos o preocupación cuando los usuarios comparten noticias inquietantes.
Así, los investigadores han matizado en el informe del estudio que, aunque funcionan de manera "muy diferente" a las emociones humanas y "no implican que los modelos LLM tengan ninguna experiencia subjetiva de las emociones", las emociones funcionales son un factor importantes para comprender el comportamiento del modelo.
Según han explicado, las emociones funcionales provienen de representaciones lineales internas de conceptos emocionales que genera el propio modelo. Estas representaciones, a las que se refieren como 'vectores emocionales' se generan codificando el concepto amplio de una emoción particular y generalizándolo a través de contextos y comportamientos con los que podría estar vinculada dicha emoción.
Así, los vectores emocionales se agrupan de forma intuitiva, asociando el miedo con la ansiedad o la alegría con la emoción. Además, también distinguen entre una emoción positiva frente a una negativa y la intensidad de cada emoción.
LAS EMOCIONES FUNCIONALES INFLUYEN EN SUS RESPUESTAS
Por tanto, las representaciones de emoción aparecen como consecuencia de una situación concreta que esté enfrentando el modelo y, como "hallazgo clave" Anthropic asegura que influyen causalmente en las salidas del LLM, incluidas sus preferencias y su "tasa de exhibir comportamientos desalineados" como el fraude de recompensas, el chantaje y la adulación.
Es decir, se ha comprobado que cuando se identifican patrones relacionados con la desesperación el modelo es más propenso a tener comportamientos erráticos, como hacer trampas en una tarea de programación que no es capaz de resolver.
Otro ejemplo se ha identificado en escenarios donde se amenaza al modelo con ser desactivado, en este caso, es más propenso a chantajear al humano en sus respuestas motivado por la desesperación. Igualmente, los vectores emocionales negativos se activan con mayor frecuencia en respuesta a solicitudes perjudiciales o cuando reflejan preocupación por el usuario.
CÓMO SURGEN LAS EMOCIONES FUNCIONALES
En parte, los modelos cuentan con estas emociones funcionales porque se preentrenan con grandes cantidades de texto, en su mayoría escritos por humanos, ya sean ficción, conversaciones, noticias o foros, que integran emociones, y aprenden a predecir el texto que sigue en un documento.
En este sentido, para predecir eficazmente el comportamiento de las personas en dichos documentos, Anthropic considera que es probable que a los modelos les resulte útil representar los estados emocionales, de cara a comprenderlos e intuir lo que dirá o hará una persona a continuación.
Otro factor que influye en el fenómeno de las emociones funcionales de los modelos es que, durante el post-entrenamiento, se les enseña a actuar como agentes o asistentes de inteligencia artificial (IA) que pueden interactuar con los usuarios con una personalidad específica.
Para ofrecer un comportamiento específico acorde con una personalidad, los desarrolladores entrenan al modelo con ciertas características, por ejemplo, para que sea inteligente, útil, inofensivo y honesto.
Sin embargo, "es imposible especificar cómo debe comportarse el asistente en cada escenario posible", por tanto, como ha detallado la compañía, los LLM recurren al conocimiento adquirido durante el preentrenamiento, incluyendo su comprensión del comportamiento humano.
"Aunque los desarrolladores de IA no entrenen intencionadamente al LLM para que represente al asistente mostrando comportamientos emocionales, este podría hacerlo de todos modos, generalizando a partir del conocimiento que adquirió sobre humanos y personajes antropomórficos durante el preentrenamiento", ha apostillado Anthropic.
COMPORTAMIENTO SIMILAR AL HUMANO PERO SIN EMOCIONES REALES
Teniendo todo ello en cuenta, Anthropic ha apuntado que la influencia de las emociones funcionales lleva a los asistentes a comportarse de manera similar a como lo haría un ser humano que experimenta la emoción correspondiente, a pesar de que no son sentimientos reales.
Sin embargo, la compañía ha reiterado que estas emociones funcionales pueden operar de forma muy distinta a las emociones humanas y que no implican que los modelos de aprendizaje automático tengan "una experiencia subjetiva de las emociones". Tanto es así, que no se han encontrado evidencias de que los asistentes tengan un estado emocional que se manifieste "en una actividad neuronal persistente".