Исследование опубликовано в журнале Scientific Reports. С детства многие представляют себе молекулу ДНК как двойную спираль, напоминающую винтовую лестницу. В этой «лестнице» перекладины — это пары азотистых оснований, а перила — чередующиеся цепочки из сахара и фосфатных групп. Обычно ДНК закручена вправо, но есть участки, которые могут временно перекручиваться влево, что позволяет регулировать активность генов. Из-за внешнего сходства с буквой Z такие участки получили название Z-флипонов.
Команда ученых из Международной лаборатории биоинформатики Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ вместе с компанией InsideOutBio проанализировала геномы человека и мыши, чтобы предсказать местоположение Z-флипонов и определить их функции. Для этого исследователи изучали, сохраняются ли участки Z-ДНК у различных видов в процессе эволюции: если участок остается неизменным, значит, он важен для функционирования и выживания организма.
Ученые применили ранее разработанную систему машинного обучения DeepZ. В этой системе учитывались не только данные из линейной последовательности ДНК, но и результаты десятков тысяч омиксных экспериментов. Например, информация об эпигенетических метках — химических «знаках» на ДНК или белках, которые помогают включать и выключать гены, не изменяя саму структуру ДНК. Кроме того, были добавлены данные об энергии перехода — энергии, необходимой для изменения структуры участка ДНК. На основе этих данных были созданы две модели машинного обучения: для человека и для мыши. Затем обученная модель «скользила» по всему геному и реагировала на области, где с высокой вероятностью находился участок Z-ДНК. Предсказания моделей сравнивались, и искались участки, которые сохраняются в геноме человека и мыши.
Исследователи смогли структурировать данные о расположении Z-флипонов в геномах мыши и человека и указать, в каких именно генах они находятся. Ученые доказали, что Z-флипоны являются консервативными элементами, общими для различных организмов, и сохраняются в процессе эволюции. Методом кластеризации было выявлено, что Z-флипоны группируются по функциям: одни из них участвуют в регуляции транскрипции, другие — в организации хроматина — «упаковке» ДНК внутри клетки. Это подтвердило, что омиксные признаки действительно определяют функциональный класс Z-флипонов, что важно для понимания их роли.
Также ученые впервые выяснили и статистически подтвердили, что Z-флипоны ускоряют инициацию транскрипции — процесс создания РНК-копий генов. Эта особенность позволяет клеткам быстрее адаптироваться к изменениям, что особенно важно для генов, участвующих в развитии нервной системы и других жизненно важных процессов.
«Чтобы создать копию гена, РНК-полимераза должна прикрепиться к определенному участку ДНК и создать РНК-копию. Если требуется много копий, на участок одновременно садятся несколько “ксерокс-машинок”. Однако механизм здесь несколько иной: вместо одной страницы, которая многократно копируется, есть одна “книжка” — последовательность ДНК. По этой “книжке” запускаются маленькие “ксерокс-машинки”, каждая из которых движется вдоль ДНК и создает копию. Чтобы получить больше копий, важно, чтобы новые “машинки” садились сразу после того, как предыдущие завершат работу. Частота, с которой запускаются новые копии, и называется скоростью инициации транскрипции», — объясняет один из авторов статьи, заведующая Международной лабораторией биоинформатики факультета компьютерных наук НИУ ВШЭ Мария Попцова.
Команда Международной лаборатории биоинформатики создала сайт, на котором размещены алгоритмы для анализа данных, основанные на машинном обучении, а также полногеномные аннотации — подробная информация о функциональных элементах генома.