ИЗ ПЕРВЫХ РУК
Михаил Гельфанд
Что можно сказать о бактерии, зная только ее геном
Одна из классических и, пожалуй, самых фундаментальных, задач генетики — это предсказание фенотипа, то есть внешних признаков организма, по генотипу — набору унаследованных генетических детерминант. До последнего времени она могла быть решена только в очень частных случаях. Однако все изменилось десять лет назад, когда стала известна полная последовательность нуклеотидов в единственной кольцевой хромосоме гемоглобинофильной палочки Haemophilus influenzae — первый полный геном бактерии. Справедливости ради следует отметить, что полные геномы многих фагов и вирусов появились намного раньше, и это глубоко изменило современную вирусологию. Тем не менее полные последовательности геномной ДНК самостоятельных организмов, сначала прокариот
— бактерий и архей, а затем и эукариот, от дрожжей и растений до дрозофилы и человека, позволили совершенно по-новому подойти к генетическим проблемам и, в частности, к предсказанию фенотипа, поскольку впервые стали известны все гены полноценного организма.
Или не стали? Сама по себе последовательность нуклеотидов в хромосомной ДНК еще не дает представления о генах, не говоря уже о том, как регулируется их работа. В этом смысле газетные заголовки пятилетней давности, в которых говорилось о "расшифровке генома человека", были, мягко говоря, несколько преждевременными — если продолжить эту метафору, то в 2001 году произошел всего лишь перехват зашифрованного сообщения, смысл которого мы до сих пор понимаем только в очень ограниченных пределах. Даже приблизительные оценки количества генов человека — в первом приближении участков последовательности ДНК, кодирующих белки — уменьшились за четыре года, прошедшие после первой публикации, от 30—35 тысяч до 20—25 тысяч, то есть примерно в полтора раза (до публикации генома была распространена оценка порядка 100 тысяч).
Мы еще очень далеки от понимания функционирования человеческого генома. Для бактерий задача описания физиологии организма по геному проще, и во многих аспектах она может быть решена при помощи компьютерного анализа последовательности геномной ДНК. Разработка и применение методов такого анализа — задача биоинформатики, науки, возникшей в начале 1980-х годов на стыке молекулярной биологии, математики, информатики (computer science), биофизики и, пожалуй, даже лингвистики.
Один из первых этапов анализа генома — это и есть идентификация генов. Нам необходимо выяснить, какие участки ДНК представляют собой гены, и гены какого именно белка. Вопрос совершенно не праздный, ведь, как мы знаем, даже у бактерий далеко не вся ДНК несет в себе информацию о структуре белков. Для этого применяются несколько подходов. Во-первых, статистические свойства белок-кодирующих областей не такие, как у некодирующих. К таким свойствам относятся частоты коротких цепочек нуклеотидов, различные периодичности и т.п. Во-вторых, существуют особые сигналы на границах кодирующих областей: простым примером являются стоп-кодоны, которыми заканчивается любой ген. В-третьих, для поиска генов, родственных (гомологичных) уже известным, можно использовать сравнение исследуемого фрагмента с банком данных всех изученных генов. Наконец, белок-кодируюшие последовательности изменяются в ходе эволюции медленнее, чем некодирующие, что позволяет выделить гены как островки локального сходства при сравнении геномов нескольких относительно близких организмов. Каждый из этих подходов по отдельности недостаточно надежен, и лучшие современные методы распознавания генов используют комбинированные алгоритмы.
Уже этот относительно простой пример иллюстрирует два основных принципа современной биоинформатики: сравнительный подход и комбинирование разных способов анализа материала. Те же принципы работают и на следующем шаге: предсказании функции гена, точнее, теперь уже — кодируемого этим геном белка, по его аминокислотной последовательности (заметьте, что мы постепенно приближаемся к поставленной цели). Как и раньше, если уже известен гомологичный ген из родственного организма, функция белка может быть предсказана просто на основании сходства последовательностей. Если известны более далекие гомологи, могут быть предсказаны общие биохимические свойства (например, в случае фермента — тип катализируемой реакции), однако специфичность и, стало быть, роль в метаболизме клетки должна быть установлена. исходя из других соображений, которые будут обсуждены чуть ниже. Наконец, иногда удается только лишь установить наличие в белке структурных особенностей или так называемых функциональных подписей — наборов аминокислот, характерных для белков, выполняющих одну и ту же функцию. Например, во всех секретируемых белках должны присутствовать сигнальные пептиды, определяющие прохождение белка через мембрану, а в любом белке, связанном с мембраной или занимающемся трансмембранным транспортом, должен быть участок, "прошивающий" мембрану насквозь — трансмембранный домен. Пример функциональной подписи — это пептидазные мотивы, которые образуют каталитические центры в ферментах, разрушающих пептидную связь, и АТ-фазные мотивы в ферментах, зависящих от гидролиза АТФ.
Читать дальше