Результаты исследования представлены в обзорной статье, опубликованной в журнале Nature Communications.
«Мы выявили, что среди основных трудностей — это несбалансированность и неравномерность данных, пространственная автокорреляция, смещения в данных, ошибки прогнозирования и сложности с оценкой неопределенности моделей. Несмотря на то что эти проблемы известны, существующие методы часто их игнорируют, ограничиваясь стандартными процедурами обучения и валидации моделей машинного обучения», — отметила первый автор исследования Диана Колдасбаева, аспирантка Сколтеха в программе «Вычислительные системы и анализ данных в науке и технике».
«Для преодоления этих ограничений необходимо разработать методы, учитывающие уникальные особенности экологических данных и пространственно-временных процессов. В статье представлен комплексный подход к решению данных задач, включающий инструменты и техники для повышения точности моделей, а также рекомендации по улучшению их оценки качества. Мы надеемся, что наши результаты помогут ученым из разных стран в выборе направлений для исследований», — поделился соавтор исследования Алексей Зайцев, старший преподаватель Центра искусственного интеллекта Сколтеха.
Авторы также выделили ключевые направления развития геопространственных исследований с учетом специфики экологических данных и представили собственный набор передовых инструментов, ресурсов и проектов, которые используют возможности геопространственных технологий для решения экологических проблем. Исследователи разместили его в открытом доступе на GitHub и приглашают коллег использовать этот ресурс и дополнять его.
«В ходе исследования мы определили новые наборы данных, модели и подходы для обеспечения необходимого качества работы, которое требуется для внедрения в прикладные научные разработки и решения проблемы интерпретируемости прогнозов, основанных на данных. Например, крайне важно создавать хорошо структурированные базы данных. Более качественные данные естественным образом приводят к снижению искажений, связанных с дисбалансом и автокорреляцией. Мы ожидаем появления самообучающихся систем для геопространственного картографирования в экологических исследованиях, аналогично тому, что уже наблюдается в языковом моделировании и компьютерном зрении», — прокомментировал работу Евгений Бурнаев, директор Центра искусственного интеллекта в Сколтехе и руководитель научной группы «Обучаемый интеллект» в Институте AIRI.