Дерево решений — это метод машинного обучения, представляющий собой древовидную структуру, где каждый узел задает вопрос или тест на определенное свойство данных, каждая ветвь отражает возможный ответ на этот вопрос, а каждый лист дерева — это прогноз или решение. Создание дерева решений на основе алгоритма TF-IDF позволяет учитывать значимость слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает простоту работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.
В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, кандидат физико-математических наук, и Захарьева Диана, студентка МТУСИ.
В процессе исследования они собрали массив данных с веб-ресурса https://sudact.ru/, который затем был подвергнут глубокому анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.
«В ходе сбора информации было извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны для выделения мотивировочной части иска и дальнейшего внесения в разработанную программу для продолжения исследования. В конечном итоге программа составила перечень глав и статей гражданского и семейного кодексов, и для каждого из них было указано численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — отмечает Елена Александровна.
Исследователи подчеркивают, что перед анализом статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.
«Дерево решений формировалось в несколько этапов. Сначала рассчитывались значения TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список подвергался упорядочиванию, при котором элементы располагались в порядке убывания значений. Это позволило выделить главы, наиболее точно соответствующие иску», — рассказала о ходе исследования Захарьева Диана.
При создании дерева решений на основе алгоритма TF-IDF для поиска релевантных глав были выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объемами текста и отсутствие учета контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи находятся в первой половине отсортированного по убыванию метрики списка.
Установлено, что применение дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровывать наименее подходящие статьи и главы. Другими словами, этот метод способен отсечь примерно половину глав, а в пределах каждой релевантной главы также отсеять около половины статей, исходя из степени их соответствия.
Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют провести дополнительные исследования и адаптировать методологию для более широкого применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в правовой сфере.
Материал подготовлен на основе статьи «Применение дерева решений, основанного на методе TF-IDF, для анализа естественного языка при решении задач в области гражданского права», опубликованной в сборнике трудов «Технологии информационного общества» (XVIII Международная отраслевая научно-техническая конференция).