Хоча ЗМІ часто представляють еволюцію сучасного ШІ як безперервну історію успіху, реальність значно складніша. Керування автономними автомобілями та БПЛА залишається викликом: навіть у найсильніших гравців галузі, таких як Waymo та Tesla, машини час від часу проїжджають на червоне світло або сигналять одна одній вночі, незважаючи на те, що автономний автомобіль, на відміну від пілотованого, практично не реагує на звукові сигнали.
Подібні історії не випадкові, але вказують на одне з вузьких місць сучасного ШІ: він непогано працює в ситуаціях, до яких його «готували», навчаючи на великій вибірці, але часто пасує перед рідко зустрічаючими складнощами, які лише слабо (або й зовсім не) представлені в його навчальній вибірці.
Звісно, вчені намагаються боротися з такими явищами. Одним із засобів є контекстне навчання з підкріпленням (In-context Reinforcement Learning, або In-Context RL). Йдеться про відносно новий напрям у ШІ: такий підхід дозволяє моделі швидко адаптуватися до нових завдань, відштовхуючись від підказок і контексту, без тривалого навчання з нуля.
В результаті ШІ може ефективно взаємодіяти навіть з дуже складним оточенням і дообучатися на ходу. In-Context RL вважається перспективним у таких сферах, як персоналізовані рекомендації для покупців інтернет-магазинів, управління роботами та автономними автомобілями. Іншими словами, він найбільш затребуваний там, де потрібна практично миттєва адаптація до принципово нових умов.
Але для навчання такого ШІ потрібне спеціальне віртуальне середовище, своєрідний цифровий полігон. Існуючі середовища такого роду можна поділити на дві категорії. Одні непогано розроблені, як Google DeepMind, але внутрішньокорпоративні, тобто закриті для зовнішніх користувачів. Другий варіант: вони відкриті, але порівняно прості, тому пропонують для дообучення ШІ лише однотипні й легкі завдання. На них досягти суттєвого прогресу проблематично. Тому в лабораторії T-Bank AI Research вирішили створити своє власне відкрите віртуальне середовище.
«Ми прийшли в область контекстного навчання з підкріпленням, коли вона ще зароджувалася, тому не знайшли жодного підходящого інструмента для оцінки нових ідей. Стало зрозуміло, що це проблема для багатьох спеціалістів, а отже, вона повинна бути вирішена однією з перших. Тому з'явився XLand-MiniGrid», — зазначив учений Вячеслав Синій з наукової групи AI Alignment, що входить до лабораторії досліджень штучного інтелекту T-Bank AI Research.
Наукова стаття про нове віртуальне середовище прийнята на найбільшу міжнародну конференцію в галузі ШІ — NeurIPS 2024. Її представлять там з 10 по 15 грудня у Ванкувері, Канада. Але ще до цього середовище вже використовували в цілому ряді досліджень учених з великих закордонних центрів, що розробляють штучний інтелект.
Нове середовище створено на базі JAX — технології для розробки високопродуктивних програм. Тому, на відміну від більш повільних відкритих аналогів, XLand-MiniGrid виконує мільярди операцій на секунду.
Ще там зібрано 100 мільярдів прикладів дій ШІ в 30 тисячах завдань. Завдяки цьому розробники можуть використовувати готові датасети для навчання, а не збирати їх щоразу з нуля. Такі особливості віртуального середовища для навчання ШІ спрощують дослідження та нові відкриття в цій області.
При цьому, на відміну від вже існуючих середовищ високої складності, XLand-MiniGrid доступний у відкритому доступі і викладений на GitHub.