Оказывается, что простые соображения, основанные на сходстве с уже известными белками, позволяют установить клеточную роль для половины или даже до двух третей генов новосеквенированного генома, и общую биохимическую функцию для еще 10—20 процентов генов. Это позволяет описать в общих чертах метаболизм изучаемой бактерии и затем перейти к детальной метаболической реконструкции, то есть к описанию всех метаболических путей, закодированных в геноме.
Часть этой задачи решается так, как мы только что рассмотрели, а часть — нет. В нашей картине остаются пробелы, т. е. функции, которые должны присутствовать, исходя из общих соображений биохимической осмысленности, однако гены для которых не найдены. Например, внутренние реакции в линейных путях — мы точно знаем из биохимии, что такие внутренние реакции обязательно происходят, или молекулы-транспортеры исходных веществ-предшественников — они также обязательно должны быть в клетке. Попробуем заполнить эти пробелы методами сравнительной геномики, параллельно описывая механизмы регуляции и эволюции метаболических путей и регуляторных систем.
Механизм поддержания гомеостаза цинка. При достаточной концентрации ионов цинка (точки) в клетке его хватает и для основных белков рибосом (незакрашенные круги), и для ферментов (треугольники).
Репрессор (прямоугольник) в присутствии иона цинка взаимодействует со своим сайтом связывания (черный овал) и подавляет транскрипцию (угловая стрелка) гена дополнительного белка рибосом (большая стрелка).
При недостатке цинка репрессор оставляет свой сайт связывания, происходит транскрипция гено дополнительного белка, зтот белок включается в состав части рибосом (серые круги), заменяя основной белок (черная стрелка) и тем самым высвобождая часть ионов цинка для ферментов (черная пунктирная стрелка)
Откуда берутся пробелы? Дело в том, что даже в родственных организмах белки с одинаковой функцией могут быть не очень похожи. Более того, для известных функций разные организмы могут использовать совершенно новые белки, колируемые, естественно, совершенно новыми генами. Даже среди реакций основного обмена веществ более сотни не представлены ни одним известным геном, и еще больше реакций, которые известны лишь в некоторых таксономических группах и не известны, например, в бактериях. С другой стороны, примерно 5—10 % каждого бактериального генома составляют гены из консервативных семейств, присутствующих практически в каждом геноме, но при этом не включающих ни одного экспериментально охарактеризованного гена. Консервативность и широкое распространение этих генов указывает на их важность, и ясно, что они-то и кодируют "отсутствующие" функции.
Заполнение пробелов основано на ряде наблюдений, сделанных после начала массового секвенирования геномов. Гены, кодирующие связанные функции, часто располагаются в бактериальных геномах рядом друг с другом. Такими функциями могут быть соседние реакции из одного пути, транспорт веществ-предшественников, регуляция транскрипции генов изданного пути и т.п. Конечно, то, что гены, кодирующие ферменты из одного пути, могут образовывать опероны (последовательные группы совместно транскрибируемых генов), было известно уже давно, однако только сравнение многих геномов позволило реализовать это общее наблюдение в алгоритмах, дающих количественную оценку потенциальной функциональной связи для каждой пары генов. Аналогично, существуют алгоритмы функциональной аннотации, основанные на том, что функционально связанные гены встречаются в геномах не независимо, а целой группой. Опять же, этому есть естественное биологическое объяснение: конкретная биохимическая реакция существенна для клетки не сама по себе, а лишь в контексте целого метаболического пути, и потому в геномах не встречаются гены, отвечающие за изолированные реакции, — продукты таких генов не нужны организму, ему их просто "некуда девать".
В качестве примера рассмотрим работу, в которой приемы сравнительной геномики позволили описать новые аспекты хорошо изученной системы гомеостаза цинка, ионы которого входят в состав многих необходимых для жизни клетки ферментов.
При сравнительном анализе геномов бактерий было обнаружено, что во многих бактериальных геномах имеются гены, кодирующие белки, гомологичные белкам рибосомы. Более того, оказалось, что в таких случаях основной белок имеет последовательность аминокислот, характерную для цинк-связывающих белков — так называемый "мотив цинковой ленты", а в дополнительных гомологичных белках этот мотив разрушен.
Читать дальше