Ученые предложили новый алгоритм для быстрого и точного изучения ДНК
Разработка относится к области биоинформатики — дисциплины "на стыке наук". Биоинформатика — это набор методов математики, статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК и белки. Одной из важных задач биоинформатики является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются РНК и белки. Такие области — гены — представляют особый научный интерес. Для многих исследований нужна информация не обо всей ДНК (длина которой составляет 2 метра только для одной человеческой клетки), а о ее наиболее информативной части — генах. Выявление генных участков происходит на основе поиска сходства фрагментов последовательности с уже известными генами или путем обнаружения характерных для генов закономерностей чередования нуклеотидов. Этот процесс осуществляется с помощью предсказательных алгоритмов.
Найти генныe участки — нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток передача наследственной информация усложнена наличием "разрывов" в кодирующих областях (интронов) и отсутствием однозначных признаков для определения того, является ли область кодирующей или нет.
Алгоритм, предложенный учеными, определяет, какие области в ДНК являются генами, а какие — нет. Для этого можно использовать марковскую цепь (последовательность случайных событий, будущее которых зависимо от прошлого), обучаемую на уже известных генах.Состояниями цепи в данном случае являются либо нуклеотиды, либо нуклеотидные "слова". Алгоритм определяет наиболее вероятное разбиение генома на кодирующие и некодирующие области, наилучшим образом классифицирующую геномные фрагменты по их способности кодировать белки или РНК. Экспериментальные данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить модель используемую в алгоритме. Некоторые программы-предсказатели генов могут использовать эти данные для улучшения точности нахождения генов. Однако такие алгоритмы требуют обучающую выборку, на которой будет происходить видо-специфичная тренировка модели.Например, для программы AUGUSTUS, показывающей высокую точность, необходима тренировочная выборка из генов. Такое множество можно получить с помощью другой программы — GeneMark-ET — которая относится к категории само-тренирующихся алгоритмов. Эти два алгоритма и объединил алгоритм BRAKER1 предложенный совместно авторами AUGUSTUS и GeneMark-ET.
BRAKER1 показал высокую эффективность. Разработанную программу скачало уже более 1500 различных центров и лабораторий, пишет пресс-служба МФТИ. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Примерный хронометраж BRAKER1 на одном процессоре составляет ∼17.5 часов для обучения и предсказания генов на геноме длиной 120 миллионов пар оснований. Это хороший результат, учитывая, что время может быть значительно уменьшено за счет использования параллельных процессоров а значит в перспективе алгоритм может работать еще быстрее и, в целом, эффективнее.
"Подобные инструменты помогают решать множество различных задач. Точная аннотация генов в геноме черезвычайно важна. Например, уже опубликованы первые результаты глобального проекта "1000 человеческих геномов", запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате было обнаружено последовательностей редких генных вариантов — замен в генах, некоторые из которых приводят к болезням. При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак. BRAKER1 позволяет эффективно работать с геномами новых организмов ускоряя аннотацию геномов и получение критически важных знаний в науке о живой природе", — говорится в сообщении МФТИ.