Результаты работы опубликованы в arXiv. С каждым годом искусственный интеллект становится все более значимым элементом образовательных процессов, и перед разработчиками стоит важный вопрос: как оценивать способности ИИ, особенно в контексте его роли в обучении? Исследователи Высшей школы экономики предложили новый психометрический подход, который поможет создавать эффективные тесты для оценки профессиональных компетенций больших языковых моделей (LLM), таких как GPT. Этот подход основывается на таксономии Блума, которая, наряду с наличием достаточного количества бенчмарков (тестов для языковых моделей), не так активно применяется именно в рамках оценки результатов.
Ключевая особенность представленной методологии заключается в сравнении различных уровней заданий — как легких (знаниевых), так и профессиональных (применение знаний), при этом оценка заданий учитывает эти характеристики. Это важно для того, чтобы определить, насколько качественными окажутся рекомендации модели в разнообразных ситуациях и насколько ей можно доверять в педагогической сфере. В ходе исследования ученые разработали и протестировали более 3900 уникальных заданий, разделенных на 16 профессиональных областей, включая методы преподавания, психологию образования и управление классом. Эксперимент проводился на модели GPT-4 в русскоязычной версии.
«Мы создали новый подход, который выходит за рамки традиционного тестирования, — объясняет ведущий автор проекта, научный руководитель Центра психометрики и измерений в образовании Института образования НИУ ВШЭ Елена Карданова. — Наш подход проиллюстрирован специальным новым обширным бенчмарком (так называют тест для языковых моделей) для ИИ в педагогике, который строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности».
Современные ИИ, такие как ChatGPT, действительно обладают удивительной способностью быстро обрабатывать и генерировать текст, что делает их потенциальными помощниками в образовательной среде. Результаты показали, что модель испытывает трудности в более сложных заданиях, требующих глубокого понимания и способности к адаптивному мышлению. Например, ИИ успешно решает задачи на установление фактов, но менее успешен в ситуациях, требующих детального анализа и гибкого мышления в реальных педагогических кейсах. В частности, ChatGPT не всегда удачно справляется с теоретическими задачами, даже если они довольно просты для обычных студентов.
«Разработанный нами подход позволяет наглядно продемонстрировать ключевую проблему ИИ сегодня: никогда не знаешь, где ожидать ошибки. Модель может ошибаться даже в самых простых заданиях, которые считаются основой дисциплины. Наш тест выявляет ключевые проблемы как в знаниевой области, так и в области прикладного применения, тем самым намечая путь к преодолению этих основных проблем. Их устранение критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и, тем более, учеников. Но помощник, за которым необходимо постоянно перепроверять информацию — а так оно и есть сейчас — вряд ли станет желанным для использования», — делится мнением научный руководитель НИУ ВШЭ Ярослав Кузьминов.
Среди возможных сценариев использования ИИ в образовании ученые по всему миру выделяют помощь преподавателям в создании учебных материалов, автоматизированную оценку ответов студентов, формирование адаптивных учебных планов, а также быструю подготовку аналитики по учебным достижениям учащихся. Как считают авторы, ИИ может стать мощным подспорьем для учителей, особенно в условиях растущей нагрузки. Однако еще необходимо совершенствовать модели и подходы к их обучению и оценке.
«Проведенный тест помог нам понять не только и не столько, как обучать большие генеративные модели, а почему страхи о замене учителя искусственным интеллектом как минимум преждевременны. Действительно, нельзя не отметить прорыв генеративных моделей как помощника учителя: они уже сегодня могут помочь составить учебный план или, например, список литературы к уроку, а в некоторых случаях — проверить задания.
Тем не менее, мы все еще сталкиваемся с галлюцинациями модели, когда она, не имея информации о явлении, сама генерирует ответы на вопросы, или с ситуацией непонимания контекста. В целом, если мы хотим, чтобы инструменты на основе генеративных моделей использовались в педагогической практике и пользовались эпистемическим доверием, еще есть над чем работать», — оценил результаты проведенного теста заведующий Лабораторией проектирования содержания образования НИУ ВШЭ Тарас Пащенко.
В будущем команда исследователей планирует продолжить работу над улучшением бенчмарка и внедрением более сложных типов заданий, которые смогут оценить такие способности ИИ, как анализ и оценка информации.
«Наши будущие статьи будут сосредоточены как на описании новых типов бенчмарков, так и на описании академических техник. Эти техники будут разработаны для дообучения моделей с целью устранения рисков галлюцинаций, потери контекста и ошибок в ядре знаний. Самое главное, чего хотелось бы достичь, — позволить моделям быть устойчивыми в знании, а также понять, как с более высоким уровнем точности эту устойчивость проверить, иначе это так и останется инструментом для упрощенного списывания и имитации знаний», — отметила старший преподаватель кафедры высшей математики НИУ ВШЭ Екатерина Кручинская.