Пока эта глава готовилась к печати, в конце 2004 года вышла ещё одна статья Б. А. Малярчука с новыми данными по русским популяциям [Malyarchuk et al., 2004]. Эти популяции, к сожалению, уже не могли быть включены в наш анализ, но чтобы дать читателю полный перечень изученных русских популяций, мы приводим их в таблице 6.2.2.
Аутосомные гены «диплоидные», т. е. присутствуют в двойном наборе. А у «гаплоидных» однородительских маркёров лишь один набор генов — либо только от матери (мтДНК), либо только от отца (Y хромосома). Поэтому выборка людей для изучения однородительских маркёров и должна быть в два раза больше. Ведь изучив 75 человек по аутосомным маркёрам, мы получаем выборку 150 генов. А по однородительским для выборки 150 генов мы должны изучить 150 человек.
В популяциях имеется множество гаплотипов, поэтому их частота невелика. И надо увеличивать численность выборки из популяции — тогда появляется шанс, что они в неё попадут. Если частота исчисляется сотыми долями, то и выборка должна быть не меньше 100 человек.
Публикуется впервые, с любезного разрешения автора.
Пока эта глава готовилась к печати, вышла статья Б. А. Малярчука с данными по пяти русским популяциям ( табл. 6.2.2 ).
Во время подготовки книги к печати появились данные ещё по 6 популяциям ( см. табл. 6.2.2 ).
Этимология этнонимов «казаки», «казахи» одинакова — человек, лишившийся своего скота, угодий и сделавшийся наёмным работником, «перекати поле» [Агеева, 2001].
Пономарь — низший церковнослужитель, главной обязанностью которого было звонить в колокола, участвовать в клиросном пении и вообще прислуживать при богослужении. (Полный православный богословский энциклопедический словарь, 1992 — репринт).
d — традиционное в популяционной генетике обозначение для генетического расстояния (от англ. distance). Нижний индекс указывает, между какими именно регионами вычислено расстояние. Например, d N-S —это расстояние между Северным (Northern) и Южным (Southern) регионами; d W- E —это расстояние между Западным (Western) и Восточным (Eastern) регионами; d N-C— это расстояние между Северным (Northern) и Центральным (Central) регионами; a ¯d N— средние расстояния от Северного региона (черта над символом — общепринятое в статистике обозначение для средней величины).
Тема следов татаро-монгольского ига в русском генофонде затронута в разделе 10.2.
Такое сокращение «классических» данных до 15 народов мы, конечно же, провели только для статистического анализа — карты классических маркёров построены по полному набору имеющихся данных.
При неэффективности метода главных компонент все компоненты описывают одинаковую часть общей дисперсии, то есть их информативность равна информативности исходных признаков. Если признаков 10, то каждый описывает десятую часть общей дисперсии, если признаков сто — то сотую, и такая же дисперсия ожидается от главных компонент (новых признаков) при их неэффективности. В нашем случае хотя аллелей сто, но независимых признаков (число степеней свободы) меньше — 67, поскольку в каждом из 33 локусов частоты одного аллеля однозначно задаются частотами прочих аллелей (ведь сумма частот всех аллелей локуса всегда равняется единице). 100-33=67 независимых признаков, и дисперсия первой главной компоненты, ожидаемая при неэффективности метода составляет 1/67=0.149, то есть упомянутые полтора процента.
Показатели ранговой корреляции Спирмена rприводятся по абсолютной величине, поскольку при корреляции с главными компонентами знак не имеет значения — для положительного и отрицательного полюса их знак условен, и они без последствий могут менять их на противоположные.
Памятник материальной культуры палеолита — это все те стоянки, жилища, захоронения, временные стойбища, каменные карьеры и прочие знаки обитания человека в древнекаменном веке.
Грант 6.72. (1991–1998 гг.) «Создание компьютерного банка данных о генофонде населения России и сопредельных стран», рук. Е. В. Балановская.
То есть на данных не об отдельных «выдержках» о варьирующих фрагментах мтДНК, а о полном тексте всей последовательности нуклеотидов мтДНК.
Читать дальше