Дерево рішень — метод машинного навчання, деревоподібна структура, де кожен вузол представляє собою питання або тест на певну властивість даних, кожна гілка відповідає можливій відповіді на це питання, а кожен лист дерева — прогноз або рішення. Побудова дерева рішень на основі алгоритму TF-IDF дозволяє враховувати важливість слів, виділяючи ключові терміни та фільтруючи часто зустрічаються слова. Цей підхід забезпечує легкість роботи з текстовими даними, інтерпретованість результатів і мінімальні вимоги до попередньої обробки, що робить його зручним для задач категоризації та тематичного аналізу.
У МТУСІ над розробкою нової методики застосування дерева рішень, основаного на методі TF-IDF для аналізу природної мови при вирішенні задач у сфері цивільного права, працювали: Скородумова Олена Олександрівна, доцент кафедри ТВіПМ, кандидат фізико-математичних наук, доцент, та Захар'єва Діана, студентка МТУСІ.
В ході дослідження вони зібрали масив даних з веб-ресурсу https://sudact.ru/, який потім підлягав детальному аналізу з акцентом на виявлення релевантних глав і статей цивільного кодексу.
«В рамках збору інформації було витягнуто 12 справ у сфері цивільного права, які згодом піддалися детальному вивченню та аналізу. Витягнуті обвинувальні рішення по справах були оброблені з метою виділення містяться в них мотивувальної частини позову та подальшого внесення в розроблену програму для проведення подальшого дослідження. В кінцевому підсумку програма сформувала перелік глав і статей цивільного та сімейного кодексів, і для кожного з них було наведено числове значення, що відображає ступінь відповідності між мотивувальною частиною позову і змістом певної глави та статті. Процедура співвідношення та оцінки схожості проводилася для кожної глави та статті окремо», — зазначила Олена Олександрівна.
Дослідники відзначають, що перед аналізом відповідності статей важливо виявити відповідні глави, спираючись на їх розташування у списку, відсортованому за спаданням метрики релевантності.
«Дерево рішень формувалося в кілька етапів. Спочатку проводився розрахунок значень TF-IDF для кодексів, потім для розділів цих кодексів. Наступні етапи включають розрахунок TF-IDF для підрозділів і, нарешті, для глав. Отримані значення TF-IDF на кожному рівні ієрархії перемножувалися між собою. Потім отриманий список проходив процес упорядкування, в ході якого елементи розташувалися в порядку спадання значень. Це дозволило виділити ті глави, які найбільш точно відповідають позову», — розповіла про дослідження Захар'єва Діана.
При побудові дерева рішень на основі алгоритму TF-IDF для пошуку релевантних глав виявлені фактори, що впливають на якість моделі: низька ефективність при роботі з великими обсягами тексту і відсутність врахування контексту. При аналізі схожості статей і позову було виявлено, що релевантні статті розташовані в першій половині відсортованого за спаданням метрики списку.
Встановлено, що використання дерева рішень, основаного на алгоритмі TF-IDF, дозволяє ефективно відфільтрувати найбільш невідповідні статті та глави. Іншими словами, цей метод здатний провести відсів приблизно половини глав, а в межах кожної релевантної глави також відкинути близько половини статей, виходячи з ступеня їх відповідності.
Дослідники впевнені, що у нового методу є потенціал для подальшого розвитку. Вони планують проведення додаткових досліджень і адаптацію методології для розширення застосування в різних контекстах, що відкриє нові горизонти для ефективного аналізу тексту в сфері права.
Матеріал підготовлений на основі статті «Застосування дерева рішень, основаного на методі TF-IDF, для аналізу природної мови при вирішенні задач у сфері цивільного права», розміщеної в збірнику праць «Технології інформаційного суспільства» (XVIII Міжнародна галузева науково-технічна конференція).