Обробка природної мови, або NLP, є ключовим розділом науки про дані, популярним у промисловості та академічних колах. З розвитком NLP зростає кількість доповідей на конференціях і статей у наукових журналах, що ускладнює пошук необхідної інформації.
Класифікація та виявлення тематик у наукових публікаціях важливі для нормалізації цитувань і побудови журнальних метрик, таких як квартили. У стандартних наукометричних інструментах, таких як Web of Science і Scopus, класифікації присвоюються редакторами баз журналам, а публікації в цих джерелах приписуються до тих же тематик. Повноцінна класифікація на рівні окремих статей існує лише для мультидисциплінарних журналів, а набори тематик застарілі і майже не змінюються.
Сучасні методи виявлення тематик базуються на аналізі ключових слів і фраз, що видобуваються з назв, анотацій і текстів статей, а також на аналізі цитувань. Ці методи автоматизовані і здатні обробляти великі обсяги даних, але існує проблема з об'єктивністю результатів, оскільки ключові слова виділяє автор. Часто можна зустріти набір ключових слів, що не відображає зміст роботи, наприклад: «artificial intelligence, intelligent systems, machine learning» і так далі.
У зв'язку з цим виникла необхідність у застосуванні універсальної методики з використанням сучасних алгоритмів кластеризації, яка може значно покращити розуміння та інтерпретацію наукової літератури.
Владислав Головченко, бакалавр МТУСІ, під керівництвом доцента кафедри ТВіПМ, кандидата фізико-математичних наук Ірини Синева, застосували сучасні методи багатовимірного статистичного аналізу та NLP для класифікації наукових публікацій на основі анотацій.
Для більш глибокого вивчення текстів була застосована комбінація відомих підходів, але з автентичними налаштуваннями та використанням потужніших обчислювальних ресурсів. В якості основи для аналізу був взятий набір публікацій з конференції Twenty-Eighth Conference on Artificial Intelligence, що включає 1406 статей. З них 398 (28,3 відсотка) були прийняті до публікації, що склало 3282 сторінки тексту, об'єднаних спільною тематикою — штучний інтелект. Для класифікації цього масиву даних були обрані метод k-means і ієрархічний агломеративний алгоритм.
«Важливий етап роботи з датасетом – попередня обробка даних, що включає очищення (видалення знаків пунктуації, стоп-слів), токенізацію, векторизацію. Ми видалили всі знаки пунктуації та зайві слова, а потім токенізували текст — перетворили його в набір слів, кожне з яких стало окремим символом. Цей процес відомий як векторизація. Для класифікації ми використовували алгоритми k-means та ієрархічний на основі методу Уорда. Кількість груп, які ми визначили, була заснована на аналізі методу силуета (Silhouette).
Датасет містив інформацію англійською мовою: назва роботи, автори, секція конференції, ключові слова, тематика та анотація (від 1500 знаків). На етапі відбору та попередньої обробки ми виявили деякі недоліки: дисбаланс між групами даних та пропуски знаків пунктуації. Зокрема, у двох статей відсутній атрибут group, а у шести — topic. Однак ми вирішили не враховувати ці недоліки в аналізі. Частотний підхід до аналізу текстів, що базується на законі Ціпфа-Мандельброта, прискорив процес фільтрації та підвищив ефективність. Для видобутку ознак використовувався метод TF-IDF, який виділив значущі слова та визначив вагу кожного слова», — пояснила Ірина Синева.
Для оцінки результатів при різних k використовувався метод силуета (Silhouette). Значення силуета показує, наскільки об'єкт відповідає своєму класу та іншим класам. Якщо багато об'єктів мають низькі або від'ємні значення силуета – у конфігурації занадто багато або занадто мало класів. Цей підхід дозволяє обґрунтувати кількість класів при навчанні без вчителя.
«Для визначення кількості класів були протестовані різні класифікації, їх порівняння проведено на основі силуетів. Найкращим результатом виявилося розбиття публікацій на 10 класів, для кожного класу виявлені особливості контенту. При цьому було виявлено, що розподіл вихідних розділів по генералізованим класам має ряд хороших властивостей.
Агломеративний ієрархічний аналіз на основі методу Уорда з квадратичною функцією втрат підтвердив, що масив анотацій конференції AAAI-14 логічніше та ефективніше відносити до 10 класів. Для перевірки цієї гіпотези про кількість класів було проведено порівняння результатів кластеризації при k=10 та k=15. Результати показали, що при k=10 класи більш збалансовані та не перекриваються, що підтверджує припущення про кількість класів», — розповів Владислав Головченко.
Методи, такі як k-means та агломеративний ієрархічний аналіз, заснований на методі Уорда, продемонстрували високу точність та деталізацію в класифікації текстів з однаковою тематикою. Дослідження показало, що отримані класи мають контекстно-осмислений характер, вони легко розрізняються на основі найчастіше використовуваних термінів. Було також виділено деякі самостійні класи, пов'язані з зображеннями, комп'ютерним зором, теорією ігор, економікою, плануванням, новими алгоритмами.
У ході дослідження встановлено, що математичні алгоритми, засновані на законі Ціпфа-Мандельброта, а також їх зважені модифікації, забезпечують більш точне виявлення термінологічних особливостей та порівняння публікацій, особливо в наукових статтях, де термінологічна класифікація неоднозначна.
Вчені відзначають, що використання анотацій наукових робіт замість повних текстів показало свою виправданість з точки зору економії обчислювальних ресурсів і часу, забезпечуючи при цьому адекватну точність класифікації. Подальші дослідження можуть бути спрямовані на використання повних текстів та більш потужних обчислювальних ресурсів, що дозволить більш точно ідентифікувати смислові компоненти та класифікувати наукові публікації.
Дослідження демонструє перспективність застосування методів статистичної обробки та їх модифікацій у задачі класифікації наукових текстів. Отримані результати можуть слугувати основою для розробки автоматизованих систем, здатних ефективно обробляти великі обсяги наукової інформації, що особливо актуально в умовах стрімкого зростання кількості