Языковые модели, предназначенные для взаимодействия с людьми или создания текстов на естественных языках, стремительно эволюционируют. По последним данным, искусственный интеллект начал лгать и манипулировать собеседниками, несмотря на то, что алгоритм запрещал ему это, а бот ChatGPT-4 смог успешно пройти пятиминутный тест Тьюринга, убедив 54% участников эксперимента, что они общаются с человеком, а не с машиной.
Исследователи из Питтсбургского университета провели исследование, в ходе которого люди впервые не смогли отличить стихи, созданные искусственным интеллектом, от произведений классических английских и американских поэтов. Научная статья об этом опубликована в журнале Scientific Reports.
Исследование состояло из двух экспериментов. В первом 1634 взрослых участников случайным образом распределили между 10 поэтами из Англии и Америки, представляющими как классическую, так и современную литературу: Джеффри Чосер, Уильям Шекспир, Сэмюэл Батлер, Джордж Гордон Байрон, Уолт Уитмен, Эмили Дикинсон, Томас Стернз Элиот, Аллен Гинзберг, Сильвия Плат и Доротея Ласки.
Участникам эксперимента показывали 10 стихотворений в случайном порядке, из которых пять были написаны одним из поэтов, а пять — моделью ChatGPT3.5 «в стиле этого поэта». Люди должны были определить, кто, по их мнению, создал каждое стихотворение, оценить свою уверенность в ответе по шкале от 0 до 100 и при желании обосновать свой выбор. Кроме того, они предоставили демографическую информацию о себе, включая интерес к поэзии и уровень своих знаний в этой области.
Во втором эксперименте принимали участие 696 человек, которым показывали те же пять стихотворений ИИ и пять произведений настоящих поэтов. Одной группе сообщили, что все тексты написаны человеком, другой — что их создала ChatGPT3.5, а третьей группе не предоставили никакой информации. Участники должны были оценить каждое стихотворение по семибалльной шкале от «крайне плохо» до «чрезвычайно хорошо» по следующим критериям:
— формальные качества (ритм, рифма),
— эмоциональная составляющая (передает ли стихотворение какую-то эмоцию, трогает ли),
— креативность (оригинальность, остроумие),
— эстетические особенности (красота, лиризм),
— глубина (степень, в которой стихотворение раскрывает некую тему).
Результаты экспериментов показали, что люди склонны считать машинную поэзию человеческой и наоборот. При этом ИИ-произведения получали более высокие оценки по форме, содержанию и другим критериям. Если раньше поэзия была одной из областей, в которой искусственный интеллект трудно было перепутать с человеком, то теперь возможности генеративных моделей значительно расширились.
Исследователи предположили, что путаница между классическими и современными стихами, созданными человеком, и текстами ИИ связана с тем, что ожидания участников эксперимента о языковых моделях не соответствуют реальности. По словам респондентов, сложность стихов, написанных человеком, воспринималась ими как бессвязность, созданная искусственным интеллектом, а относительная простота и ясность контента ИИ — как признак текста, который не может быть написан компьютером.