euro-pravda.org.ua

Новий метод квантування забезпечить стабільність бінарних нейронних мереж.

Група російських науковців з компанії Smart Engines та МФТІ запропонувала новий метод квантування бінарних нейронних мереж. Вони досягли кращих результатів у навчанні таких мереж.
Новый способ квантования гарантирует надежность бинарных нейронных сетей.

Робота опублікована в журналі Computer Optics. Сучасні нейронні мережі широко використовуються в різних сферах: від обробки природної мови та генерації зображень до розпізнавання символів на мобільних пристроях. У стрімко розвиваючому світі штучного інтелекту ефективність обчислень є критично важливим фактором. Для багатьох застосувань, особливо для роботи на малопотужних пристроях (мобільні телефони, вбудовані системи, системи автономного водіння), критичними є швидкість і розмір нейронної мережі.

Бінарні нейронні мережі (БНМ) — це один із підходів до створення компактних і швидких мереж. У них ваги та активації подаються всього одним бітом інформації (–1 або 1), що суттєво зменшує обсяг пам'яті, необхідної для зберігання моделі, і дозволяє використовувати швидкі побітові операції замість трудомістких множень. Однак навчання БНМ — складне завдання, яке тривалий час стримувало їх широке застосування.

Традиційні методи навчання нейронних мереж не підходять для бінарних нейронних мереж. Головна складність полягає в тому, що функція активації (перетворення вхідних даних у бінарні значення) — це кусочно-постійна функція (знакова функція), яка має нульову похідну в усіх точках, де ця похідна визначена, — ускладнює застосування методів зворотного розповсюдження помилки. Для вирішення цієї проблеми використовувалися різні підходи.

Метод прямої оцінки використовує знакову функцію під час прямого проходу, а під час зворотного проходу — її апроксимацію для обчислення градієнта. Недоліком є невідповідність градієнтів і коливання ваг, що призводить до повільного та нестабільного навчання.

Самобінаризуючі нейронні мережі використовують гладку апроксимацію знакової функції (наприклад, гіперболічний тангенс), яка поступово наближається до знакової функції в процесі навчання. Недоліком є розрив між навченою моделлю та кінцевою бінарною моделлю, що призводить до зниження точності.

Науковці з МФТІ разом з колегами здійснили прорив, розробивши новий метод квантування на основі невизначеності, який вирішує цю проблему, забезпечуючи стабільне навчання та високу якість бінарних нейронних мереж навіть при обмеженій кількості параметрів. Він поєднує в собі переваги двох вищеописаних методів.

Ключовою ідеєю квантування на основі невизначеності є використання ймовірнісної активації, яка враховує невизначеність у значеннях ваг і активацій.

«В основі нашого методу UBQ лежить нова концепція невизначеності активацій, що дозволяє отримати більш точну апроксимацію бінарної функції і, як наслідок, більш ефективно навчати бінарні нейронні мережі», — розповів Антон Трусов, аспірант кафедри когнітивних технологій Фізтех-школи прикладної математики та інформатики МФТІ.

У квантуванні на основі невизначеності для кожної ваги та активації обчислюється значення невизначеності, що відображає, наскільки мережа «впевнена» в його знаку (+1 або –1). Якщо невизначеність висока, використовується гладка апроксимація знакової функції, що забезпечує стабільне навчання.

Якщо невизначеність низька, застосовується пряма оцінка, що сприяє швидкому переходу до бінарного представлення. Крім того, для згладжування переходу від режиму навчання до режиму виконання автори пропонують поступове «заморожування» шарів мережі та заміну стандартної процедури нормалізації на її спрощений аналог.

Для перевірки ефективності квантування на основі невизначеності були проведені експерименти на широко використовуваних наборах даних MNIST (розпізнавання рукописних цифр) та CIFAR-10 (класифікація зображень). Навчалися кілька невеликих і великих згорткових нейронних мереж з бінарними шарами, використовуючи два описаних вище методи та новий авторський. Результати порівнювалися за точністю класифікації.

Експерименти показали, що новий метод перевершує попередні при роботі з невеликими мережами та демонструє порівнянні результати з методом прямої оцінки для великих мереж. Крім того, метод квантування на основі невизначеності продемонстрував більш стабільне навчання, ніж метод прямої оцінки, що підтверджується меншим розкидом результатів у повторних експериментах.

Метод квантування на основі невизначеності можна оптимізувати для різних завдань і архітектур мереж. Подальші дослідження можуть включати в себе адаптацію параметрів методу для різних завдань, використання динамічної невизначеності ваг, застосування методу до інших типів квантованих мереж.