Эксперимент по оценке стихов от ИИ

Опубликовано: 27 января 2025

Брайан Портер и Эдуард Мачери из Университета Питтсбурга провели исследование в котором сравнивали восприятие людьми биологической и машинной поэзии.

В качестве биологической поэзии были выбраны различные известные авторы вроде Шекспира, Байрона и Эмили Дикинсон. В качестве машины выступал ChatGPT 3.5, т.е. уже по сути устаревшая модель от OpenAI, которую во многом превосходят современные модели. Он использовался без какой-либо дополнительной настройки.

Исследование состояло из двух экспериментов. В первом участникам предложили для оценки 10 стихов - по 5 от каждого источника. Их целью было определить авторство - человек или ИИ. В результате участники отгадывали в 46,6% случаев, что немного ниже уровня случайного угадывания.

Во втором эксперименте участников разделили на три группы. Одной сообщили, что стихи написал ИИ, другой - что человек, а третьей не указали авторство. Стихи оценивались по 14 критериям. По итогам стихи, которые участники считали написанными ИИ получали более низкие оценки. Если авторство не указывалось, то ИИ получал более высокие оценки.

В целом можно сделать такие выводы:

Участники не были способны отличить стихи ИИ от человеческих
Имело место предвзятое отношение к ИИ
Стихи, созданные ИИ чаще воспринимались как человеческие и получали более высокие оценки

Для объяснения эффекта "более человеческий, чем человек" исследователи предполагают, что участники предпочитали стихи ИИ из-за их простоты и прямолинейности. Также сейчас часто подобные эффекты объясняют суперстимулами.