Статьи о системах Papilusion и AIpom опубликованы в цифровом архиве ACL Anthology. С ростом популярности языковых моделей, таких как ChatGPT и GigaChat, и с увеличением их использования, становится все труднее различить оригинальный текст, написанный человеком, от сгенерированного. Научные публикации и выпускные работы уже создаются с помощью искусственного интеллекта. Поэтому важно разрабатывать инструменты, которые помогут выявлять вставки ИИ в текстах. Команда исследователей, включая специалистов НИУ ВШЭ, предложила свои решения этой проблемы на международных научных соревнованиях SemEval 2024 и DAGPap24.
Модель AIpom использовалась для определения границ между оригинальными и сгенерированными фрагментами в научных статьях. В каждой работе соотношение машинного и авторского текста варьировалось. Для обучения моделей организаторы предоставляли тексты на одну тему, однако на этапе проверки темы менялись, что усложняло задачу.
«Модели хорошо справляются с известными темами, но если предоставить новую тему, результат ухудшается, — считает один из авторов статьи, стажер-исследователь Научно-учебной лаборатории моделей и методов вычислительной прагматики факультета компьютерных наук НИУ ВШЭ Александр Ширнин. — Это похоже на студента, который, научившись решать один тип задач, не сможет так же легко и правильно решить задачу на незнакомую тему или из другого предмета».
Чтобы повысить эффективность системы, исследователи решили объединить две модели — декодер и энкодер. На первом этапе использовался декодер — нейросеть, которая на входе принимала инструкцию и исходный текст, а на выходе генерировала фрагмент текста, предположительно созданный ИИ. Затем в оригинальном тексте с помощью метки <BREAK> выделялся участок, где, по прогнозу модели, начинался сгенерированный фрагмент. Энкодер работал с размеченным текстом и уточнял предсказания декодера, классифицируя каждый токен — минимальную единицу текста в виде слова или его части — и указывая, написан ли он человеком или ИИ. Такой подход позволил повысить точность по сравнению с системами, использующими только один тип моделей: AIpom заняла 2-е место на научном соревновании SemEval-2024.
Модель Papilusion также определяла, какой текст был написан человеком, а какой сгенерирован. С ее помощью текстовые участки разделялись на четыре категории: написанный человеком, исправленный с помощью синонимов, сгенерированный моделью и кратко пересказанный. Задача заключалась в правильной идентификации каждой из категорий. Количество категорий и длина вставок в текстах различались.
В этом случае разработчики использовали три модели одного типа — энкодеры. Их обучали предсказывать одну из четырех категорий для каждого токена текста, причем все модели обучались независимо друг от друга. Когда модель ошибалась, ее штрафовали и дообучали, замораживая при этом нижние слои модели.
«В каждой модели в зависимости от архитектуры предусмотрено разное количество слоев. Когда мы обучаем модель, можно не трогать, например, первые десять слоев и изменять параметры только в двух последних. Это делается для того, чтобы сохранить важные данные, заложенные в первых слоях, — объясняет Александр Ширнин. — Можно сравнить это со спортсменом, который ошибается в движении рукой. Мы должны объяснить ему только эту ошибку, а не обнулить все его знания и обучать заново, иначе он может разучиться правильно двигаться в целом. Здесь это работает по той же логике. Метод не универсален и может быть неэффективен на некоторых моделях, но в нашем случае он сработал».
Три энкодера независимо определяли категорию для каждого токена (слова). Итоговый выбор системы основывался на том, какая из категорий получила наибольшее количество голосов. На соревновании система Papilusion заняла 6-е место из 30.
Как отмечают исследователи, в настоящее время модели для выявления ИИ работают эффективно, но все еще имеют ограничения, прежде всего в обработке данных, выходящих за рамки обучающих, и в недостатке разнообразных данных для обучения моделей.
«Чтобы получать больше данных, необходимо сосредоточиться на их сборе. Этим занимаются и компании, и лаборатории. Для такого типа задач нужно собирать датасеты, в которых используются несколько ИИ-моделей и методов исправления, — комментирует исследователь. — То есть не просто продолжать текст с помощью одной модели, а создавать более реалистичные ситуации: где-то попросить модель дополнить текст, переписать начало, чтобы оно лучше подходило, что-то удалить из него, попробовать сгенерировать часть в новом стиле с помощью другого промпта (инструкции) для модели. Также, конечно, важно собирать данные на других языках и по различным тематикам».