Un nuevo estudio sugiere que los chatbots de inteligencia artificial con grandes modelos de lenguaje (LLM, por sus siglas en inglés) pueden superar al ser humano medio en una tarea de pensamiento creativo en la que el participante idea usos alternativos para objetos cotidianos (un ejemplo de pensamiento divergente). Sin embargo, los participantes humanos con las puntuaciones más altas siguieron superando a las mejores respuestas de los chatbots.

El pensamiento divergente es un tipo de proceso de pensamiento comúnmente asociado a la creatividad que consiste en generar muchas ideas o soluciones diferentes para una tarea determinada. Se suele evaluar con la Tarea de Usos Alternativos (TUA), en la que se pide a los participantes que propongan tantos usos alternativos como sea posible para un objeto cotidiano en un breve periodo de tiempo. Las respuestas se puntúan según cuatro categorías diferentes: fluidez, flexibilidad, originalidad y elaboración.

En su estudio, publicado en la revista 'Scientific Reports', las investigadoras Mika Koivisto, de la Universidad de Turku (Finlandia), y Simone Grassini, de la Universidad de Bergen (Noruega), compararon las respuestas de 256 participantes humanos con las de tres chatbots de IA (ChatGPT3, ChatGPT4 y Copy.Ai) a TUA para cuatro objetos: una cuerda, una caja, un lápiz y una vela.

La mejor respuesta humana superó a la mejor respuesta de cada chatbot en siete de las ocho categorías de puntuación

Las autoras evaluaron la originalidad de las respuestas puntuándolas según la distancia semántica (grado de relación de la respuesta con el uso original del objeto) y la creatividad. Se utilizó un método computacional para cuantificar la distancia semántica en una escala de 0 a 2, mientras que evaluadores humanos, ciegos a los autores de las respuestas, calificaron subjetivamente la creatividad de 1 a 5.

 

Al menos tan bien como un humano medio

 

Por término medio, las respuestas generadas por el chatbot puntuaron significativamente más alto que las humanas tanto en distancia semántica (0,95 frente a 0,91) como en creatividad (2,91 frente a 2,47). Las respuestas humanas tuvieron un rango mucho mayor en ambas medidas: las puntuaciones mínimas fueron mucho más bajas que las de las respuestas de la IA, pero las puntuaciones máximas fueron generalmente más altas. La mejor respuesta humana superó a la mejor respuesta de cada chatbot en siete de las ocho categorías de puntuación.

Estos resultados sugieren que los chatbots de IA pueden generar ideas creativas al menos tan bien como un humano medio. Sin embargo, las investigadoras señalan que sólo tuvieron en cuenta el rendimiento en una única tarea asociada a la evaluación de la creatividad.

Así, proponen que en futuras investigaciones se estudie cómo integrar la IA en el proceso creativo para mejorar el rendimiento humano.