Результати роботи опубліковані в arXiv. З кожним роком штучний інтелект стає все більш важливою частиною освітніх процесів, і перед розробниками постає важливе питання: як оцінювати можливості ШІ, особливо коли мова йде про його роль у навчанні? Вчені Вищої школи економіки запропонували новий психометричний підхід, який допоможе створювати ефективні тести для перевірки професійних компетенцій великих мовних моделей (LLM), таких як GPT. Підхід ґрунтується на таксономії Блума, яку поряд із наявністю достатньої кількості бенчмарків (тестів для мовних моделей) не так активно використовують саме в рамках перевірки результатів.
Відмінною рисою представленої методології є те, що порівнюються різні рівні завдань — і легкі (знанняві), і професійні (як застосовувати знання), і оцінка завдань відбувається з урахуванням цих характеристик. Це необхідно для того, щоб оцінити, наскільки якісними будуть рекомендації моделі в зовсім різних ситуаціях і наскільки їй можна довіряти в педагогічній сфері. У рамках дослідження вчені розробили та протестували понад 3900 унікальних завдань, розділених на 16 професійних областей, включаючи методи викладання, психологію освіти та управління класом. Експеримент проводився на моделі GPT-4 у російськомовній версії.
«Ми розробили новий підхід, який виходить за рамки традиційного тестування, — пояснює провідний автор проєкту, науковий керівник Центру психометрії та вимірювань в освіті Інституту освіти НИУ ВШЕ Єлена Карданова. — Наш підхід проілюстрований спеціальним новим обширним бенчмарком (так називають тест для мовних моделей) для ШІ в педагогіці, який будується за принципами психометрії та орієнтований на ключові компетенції, важливі в викладацькій діяльності».
Сучасні ШІ, наприклад ChatGPT, дійсно володіють вражаючою здатністю дуже швидко обробляти та генерувати текст, що робить їх потенційними помічниками в освітньому середовищі. Результати показали, що модель стикається з труднощами в більш складних завданнях, які потребують глибини розуміння та здатності до адаптивного мислення. Наприклад, ШІ добре вирішує завдання на встановлення фактів, але менш успішний у ситуаціях, що вимагають детального аналізу та гнучкого мислення в реальних автентичних педагогічних кейсах. У тому числі ChatGPT не на 100 відсотків успішний у вирішенні теоретичних завдань, іноді зовсім простих і для звичайних студентів.
«Розроблений нами підхід дозволяє наочно показати ключову проблему ШІ сьогодні: ніколи не знаєш, де чекати помилок. Модель може помилятися навіть у найпростіших завданнях, які можуть вважатися ядром дисципліни. Наш тест виявляє ключові проблеми як у знаньовій області, так і в області прикладного застосування, тим самим окреслюючи шлях до подолання ключових проблем. Усувати їх критично важливо, адже ми розраховуємо на такі моделі як на помічників викладачів і тим більше учнів. Але помічник, за яким усе необхідно переперевіряти — а зараз це так і є, — навряд чи викличе бажання його використовувати», — розповідає науковий керівник НИУ ВШЕ Ярослав Кузьмінов.
Серед можливих сценаріїв використання ШІ в освіті вчені у всьому світі називають допомогу викладачам у створенні навчальних матеріалів, автоматизовану оцінку відповідей студентів, формування адаптивних навчальних планів, а також оперативну підготовку аналітики по навчальним досягненням учнів. Як вважають автори, ШІ може стати потужним підспор'ям для вчителів, особливо в умовах зростаючого навантаження. Однак поки ще необхідно вдосконалювати моделі та підходи до їх навчання та оцінки.
«Проведений тест допоміг нам зрозуміти не тільки і не стільки те, як навчати великі генеративні моделі, а чому страхи щодо заміни вчителя штучним інтелектом як мінімум передчасні. Дійсно, не можна не відзначити прорив генеративних моделей як помічника вчителя: вони вже сьогодні можуть спробувати скласти навчальний план або, наприклад, список літератури до уроку, в деяких випадках — перевірити завдання.
Проте ми все ще стикаємося з галюцинаціями моделі, коли, не маючи інформації про явище, вона сама придумує відповіді на питання, або з ситуацією нерозуміння контексту. Загалом, якщо ми хочемо, щоб інструменти на основі генеративних моделей використовувалися в педагогічній практиці і користувалися епістемічною довірою, ще є над чим працювати», — дав оцінку результатам проведеного тесту завідувач Лабораторією проектування змісту освіти НИУ ВШЕ Тарас Пащенко.
У майбутньому команда дослідників планує продовжити роботу над вдосконаленням бенчмарка та впровадити в нього більш складні типи завдань, які зможуть оцінити такі здібності ШІ, як аналіз та оцінка інформації.
«Наші майбутні статті будуть зосереджені як на описі нових типів бенчмарків, так і на описі академічних технік. Ці техніки будуть створені для того, щоб дообучати моделі з метою усунення ризиків галюцинацій, втрати контексту та помилок у ядрі знань. Найголовніше, чого хотілося б досягти, — дозволити моделям бути стійкими в знаннях, а також зрозуміти, як з ще більш високим рівнем точності таку стійкість перевірити, в іншому випадку це так і залишиться інструментом для спрощеного списування та імітації знань», — зазначила старший викладач кафедри вищої математики НИУ ВШЕ Єкатерина Кручинська.