Климат Земли постоянно изменяется, что оказывает значительное воздействие на человеческую жизнь и развитие общества. На протяжении последних 420 тысяч лет планета пережила четыре крупных периода охлаждения, чередующихся с межледниковьями. Голоцен, начавшийся приблизительно 12 тысяч лет назад, отличается относительно комфортными условиями и включает 13 циклов потепления и похолодания.
На данный момент ученые, исследуя ледяные керны из Гренландии и Антарктиды (озеро Восток), способны восстановить климатические данные планеты на протяжении нескольких сотен тысяч лет. Около 5,5 тысяч лет назад начался голоценовый оптимум, после которого температура начала снижаться. С середины XIX века наблюдается тенденция к потеплению, обусловленная увеличением уровня углекислого газа и воздействием человека.
Изучение климата имеет огромное значение для оценки состояния экологии и экономики, особенно в сельском хозяйстве. Современное потепление климата стало заметным всего за одно поколение и может оказать влияние на ресурсы и выживаемость человечества. Анализ исторических температур с использованием информационных технологий позволяет создавать надежные климатические прогнозы.
В последние годы достигнут значительный прогресс в обработке больших данных, что позволяет использовать огромные объемы информации для более точных прогнозов и восполнять пробелы в наблюдениях. Концепция интернета вещей (IoT) объединяет устройства для сбора данных, открывая новые возможности для научных исследований.
Виктория Ерофеева, доцент кафедры ЭБЖиЭ, Жанна Жукова, старший преподаватель той же кафедры, и группа студентов факультета «Кибернетика и информационная безопасность» провели сравнительный анализ методов обработки доступных массивов данных о температуре на нескольких метеорологических станциях штата Квинсленд (Австралия) за исторический период до 2018 года и осуществили контрольное прогнозирование на следующие пять лет, а также финальное предсказание изменения температур до 2030 года с использованием искусственного интеллекта.
Для анализа и предсказания климатических изменений в исследовании был выбран штат Квинсленд, Австралия, обладающий множеством метеорологических станций и длинными температурными рядами. Использовались данные средних годовых температур по станциям, собранные в два файла: первый файл содержал фактические температуры для 236 станций за период наблюдений с 1856 по 2022 год, а второй файл – данные пяти станций, расположенных на различных широтах за тот же период.
Для прогнозирования температуры из первого файла применялись методы, такие как k-nearest neighbors (KNN), линейная регрессия и seasonal autoregressive integrated moving average (SARIMA), без использования случайного разброса.
Для наглядной демонстрации работы было выбрано девять станций с длинными рядами наблюдений. Более детальное сравнение изменчивости температуры из второго файла было проведено с использованием метода «случайного леса» (Random Forest Regressor) для пяти станций. Этот метод позволяет сравнивать максимальные и минимальные прогнозируемые температуры с фактическими значениями. Оценка методов производилась на основе средней квадратичной ошибки (MSE).
«Точность прогноза для станций из второго файла была рассчитана для двух прогона, поскольку при прогнозировании использовался случайный разброс с применением метода случайного леса. Каждый прогон программы выдает новые значения, основанные на тех, которые доступны в файле №2. В итоге получены предсказания, учитывающие случайные величины, которые различаются (но не существенно) для каждого прогона программы.
Точность была определена путем сравнения прогнозируемых температур для двух прогона с фактическими температурами из первого файла. В результате сравнений различных методов при прогнозировании random forest regressor показал, что этот метод прогнозирует температуры с точностью не ниже 96 процентов, а наименьшая среднеквадратичная ошибка была зафиксирована у метода k-nearest neighbors (KNN): 0,175. На базе random forest regressor мы провели прогнозирование по пяти станциям до 2030 года», — отметила Виктория Ерофеева.
В ходе исследования ученые подчеркнули, что точность прогнозов зависит от размера исходного набора данных и количества гиперпараметров, таких как глубина деревьев в случайном лесу, скорость обучения при градиентном ускорении, коэффициент регуляризации в линейных моделях, количество соседей в методе k ближайших соседей и различные показатели, используемые для оценки модели.
«Сравнение температур на пяти станциях для первого файла с использованием метода регрессии случайного леса показало, что самые высокие максимальные и минимальные температуры прогнозируются на станциях Вейпа и Аэропорт Локхарт, а самые низкие — на станциях Амберли и Аплторп», — рассказала Жанна Сергеевна Жукова.
Ключевым аспектом исследования является использование машинного обучения и больших данных для прогнозирования будущих температурных режимов, что обеспечивает более полное понимание сложных процессов в атмосфере. Полученные результаты могут стать основой для разработки прогностических моделей, учитывающих как глобальные тренды, так и локальные особенности климатической динамики.
Более детализированные данные о будущих температурных изменениях могут быть использованы для оптимизации сельскохозяйственных практик, градостроительного планирования и экологического проектирования в условиях изменения климата.
Материал подготовлен на основе статьи «Сравнение методов прогнозирования температур по данным штата Квинсленд, Австралия».