Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван ab initio ) хорошо получается в случае относительно небольших геномов. Однако применительно к геному человека этот подход не всегда срабатывает в полной мере, т. к. гены человека часто устроены из маленьких экзонов и огромных интронов. Не отработаны также точные критерии для поиска не кодирующих белок генов. В этом заключается причина, почему до сих пор мы не можем назвать точное число генов в геноме человека, хотя он весь секвенирован.
Третья, не менее важная задача геноинформатики, касающаяся генома человека, — создание книги под названием «Функционирующий геном». Информация о геноме человека, накопленная сейчас в базах данных, касается в основном одного аспекта организации геномной ДНК, а именно ее первичной структуры, то есть последовательности нуклеотидов. Но для описания функциональных особенностей геномов, например особенностей регуляции экспрессии содержащихся в них генов, структуры и функции кодируемых ими белков и др. потребуются неимоверно большие объемы информации. Например, оценено, что для описания пространственной структуры лишь одного белка среднего размера (около 600 аминокислот) требуется около 200 страниц текста. А число белков уже сейчас оценивается не менее, чем в 500 000 (по некоторым расчетам оно достигает 1 млн.). Ясно поэтому, что сведения о расшифрованных белках будут храниться в компьютерных библиотеках сверхгигантского размера.
Обычно, чтобы экспериментально установить функцию того или иного вновь обнаруженного гена или белка, требуются значительные усилия экспериментаторов и весьма большие финансовые затраты. Использование компьютеров позволяет решать многие вопросы без проведения специальных дорогостоящих и занимающих много времени экспериментов. Ярким примером может служить обнаружение гена, мутация в котором обуславливает преждевременное старение, происходящее при синдроме Вернера (напомним, что пациенты с этим заболеванием уже в молодые годы выглядят как дряхлые старики). С помощью Интернета и других современных средства информатизации всего за восемь месяцев удалось «вычислить» соответствующий ген. Для его обнаружения исследователям пришлось перебрать в базах данных свыше миллиона пар нуклеотидов. Очевидно, что без помощи геноинформатики этого события пришлось бы ждать еще несколько лет.
Читать дальше
Конец ознакомительного отрывка
Купить книгу