ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ

Следы взаимодействия финноязычного, славянского и тюркоязычного населения в современном генофонде и их отражение в фармакогенетике

Информация об авторах

1 Медико-генетический научный центр имени Н. П. Бочкова, Москва, Россия

2 Институт общей генетики имени Н. И. Вавилова, Москва, Россия

3 Биобанк Северной Евразии, Москва, Россия

4 Федеральный научно-клинический центр физико-химической медицины Федерального медико-биологического агентства, Москва, Россия

Для корреспонденции: Елена Владимировна Балановская
ул. Москоречье, д. 1, 115522, г. Москва, Россия; ur.liam@aksvonalab

Информация о статье

Финансирование: исследование выполнено при поддержке грантов РФФИ №20-29-01017 Древняя ДНК (биоинформационный анализ), РНФ №21-14-00363 (анализ фармакогенетических маркеров), а также Государственного задания Министерства науки и высшего образования РФ для Института общей генетики им. Н. И. Вавилова РАН (картографический анализ) и Медико-генетического научного центра им. академика Н. П. Бочкова (интерпретация результатов).

Благодарности: авторы благодарят всех доноров образцов, которые принимали участие в данном исследовании, АНО «Биобанк Северной Евразии» за предоставление коллекций ДНК.

Статья получена: 01.04.2022 Статья принята к печати: 16.04.2022 Опубликовано online: 26.04.2022
|

При анализе генетической истории русского народа чаще всего обсуждают два аспекта: мощность генетического вклада дославянского населения в генофонд русских популяций и генетический след вторжения Золотой орды. В современном генофонде отражено взаимодействие трех генетических пластов: дославянского (финноязычного), славянского и золотоордынского (тюркоязычного) населения. Это взаимодействие может находить отражение в разных проекциях генофонда: филогеографии Y-хромосомы, селективно-нейтральных предковых компонентах аутосомного генома или же селективно-значимом фармакогенетическом ландшафте — пространственной изменчивости ДНК-маркеров, определяющих чувствительность к тем или иным лекарственным препаратам. Степень взаимодействия своеобразна в разных частях исконного ареала русского этноса [1], поэтому резонно выбрать для анализа такой узловой регион, для которого можно предполагать наибольшую интенсивность взаимопроникновения трех генетических пластов [2]. Основным претендентом на эту роль выступает население Волго-Окского междуречья в целом и Рязанской области в частности.

Со второй половины I тысячелетия н. э. на эти земли, населенные финноязычными и отчасти балтскими племенами, начинают проникать славянские племена, причем векторы их миграций различны. Есть свидетельства о движении славянских племен с югозападных территорий, затем в начале II тысячелетия сюда перемещаются и славяне с северо-запада Восточной Европы [1, 36]. Уже в начале XI в. здесь возникает Муромское княжество, включавшее в себя Рязанские земли [4, 7], а с середины XII в. оно разделяется на два — собственно Муромское и Рязанское со столицей в Старой Рязани. В 1237 г. Рязанское княжество стало первой жертвой монгольского нашествия под предводительством Батыя; набеги и разорения Рязанской земли продолжались более 350 лет.  До XVI в. Рязанское княжество постепенно теряло свои территории и с 1521 г. перешло под управление наместников московских государей, но и после подчинения Москве продолжалось разорение Рязанской земли набегами татар вплоть до 1594 г. Если учесть и более раннее взаимодействие Рязанских земель с соседней Волжской Булгарией (известны походы рязанцев против них в 1172 и 1183 г.), то началом взаимодействия рязанцев с тюркским миром, находящимся на его границах, можно считать период еще до XII в. Кроме того, Рязанский край в некотором смысле был форпостом, который граничил с Диким полем. Резонно предположить, что наибольшее взаимопроникновение генофондов славянского и тюркоязычного населения можно проследить именно в генетической истории населения Рязанской земли. Взаимодействие славянских и финноязычных племен насчитывает еще более долгую историю. Поэтому закономерно рассмотреть отражение в генофонде современных русских популяций генетического следа взаимопроникновения финноязычных, славянских и тюркоязычных племен и народов на модели «узлового» ареала Волго-Окского региона и Рязанских земель.

Современные методы анализа ДНК из ископаемых останков позволяют получить информацию о древних генофондах [814]. Но количество древних геномов, пригодных для анализа, всегда ограничено и особенно для населения, практиковавшего, как славяне, кремацию умерших. Поэтому важным источником для реконструкции популяционной истории служат генофонды современных популяций, возможности исследования которых возросли с появлением методов полногеномного анализа [1519]. Наиболее перспективен для решения поставленной задачи метод моделирования предковых компонент (ADMIXTURE) по данным об аутосомных геномах [20].

Генетическое взаимодействие народов индоевропейской, уральской и алтайской языковых семей было рассмотрено в ряде исследований современного генофонда Северной Евразии методами полногеномного анализа [2126]. Так, реконструкция генофонда балто-славянских популяций по широкогеномным панелям [21] выявила генетическую близость балтов (литовцев, латышей) к волжской группе финно-угорских народов и особенно к мордве. Восточные славяне (так же, как и западные) впитали в себя местный генетический дославянский восточноевропейский субстрат. В полногеномном исследовании популяций Восточноевропейской равнины [22] выявлено присутствие «восточноазиатской» предковой компоненты, составляющей 20% генофонда башкир и 5% генофондов чувашей и приволжских татар. У народов уральской языковой семьи, включая финноязычных карел, мордву, марийцев, удмуртов, по данным полногеномного исследования, обнаружена специфичная предковая компонента, указывающая на определенную степень их генетической общности [23]. В рамках полногеномного исследования популяций Северной Евразии выявлены три клины, тянущиеся с запада на восток [24]. При этом отмечено, что генофонды тюркоязычных и уралоязычных популяций Поволжья довольно схожи, но уралоязычные популяции генетически тяготеют и к уграм Зауралья. По итогам сравнения аутосомных геномов Новгородской области с широким кругом популяций европейской части России и Урала выдвинута гипотеза сохранения в генофонде Новгородчины наследия местного дославянского населения, генетически более близкого к восточным (волжским и пермским) финноязычным группам, чем к западным (прибалтийским) [25]. Возможности изучения фармакогенетического ландшафта не ограничены созданием картографических атласов субконтинентов и позволяют изучать и его локальные варианты. Так, показано, что фармакогенетический статус бесермян и удмуртов близок к коренному населению Поволжья, Приуралья и Южного Урала, но не более отдаленных регионов [26].

Цель данного исследования — с помощью моделирования предковых компонент выявить отражение в аутосомном генофонде современных русских популяций генетического следа взаимодействия финноязычных, славянских и тюркоязычных народов в узловом регионе Волго-Окского междуречья. Вторая, более прикладная, задача — создать карты фармакогенетических ДНК маркеров и рассмотреть особенности фармакогенетического ландшафта региона.

МАТЕРИАЛЫ И МЕТОДЫ

Методические и биоинформатические аспекты изучения аутосомного генофонда по полногеномной панели детально описаны ранее [27]. Генотипирование по полногеномной панели 4,5 млн SNP маркеров выполняли с помощью биочипа Infinium OmniExome BeadChip Kit (Illumina; США) на приборе iScan (Illumina; США). Первичный анализ и оценку качества проводили в программе GenomeStudio v2011.1, показатель CallRate составил не менее 0,99.

Если при популяционно-генетическом анализе по небольшой панели аутосомных ДНК-маркеров выборка из популяции должна быть не менее 50 индивидов, то при анализе по полногеномным панелям из миллионов ДНКмаркеров достаточна выборка 5–10 индивидов. Поскольку при этом резко возрастают требования к качеству выборки, подчеркнем, что все геномы, представленные в работе, получены согласно международным требованиям [28]: генеалогии всех изученных индивидов на протяжении не менее трех поколений указывают на происхождение из данной популяции и идентификации себя с данным этносом.

«Узловой» Рязанский край представлен 20 геномами из 4 популяций (Михайловский, Спасский, Сапожковский, Сараевский районы), для сравнения привлечены русские популяции из Тверской, Костромской, Смоленской, Калужской, Орловской, Тамбовской и Нижегородской областей. Финноязычные популяции Волго-Уральского региона представлены этническими группами Мордовии (эрзя, мокша, шокша), марийцами и удмуртами, южные карелы привлечены как наиболее географически близкий представитель западной ветви финноязычных народов. Тюркоязычные популяции Волго-Уральского региона представлены казанскими татарами и чувашами, для сравнения привлечены астраханские и ставропольские ногайцы. Для идентификации монгольского генетического следа приведены данные о шести родовых группах монголоязычных калмыков.

Анализ предковых компонент проводили методом ADMIXTURE для 248 геномов из 47 популяций 9 этносов (таблица): 104 генома из русских популяций, 81 геном четырех финноязычных народов, 47 геномов трех тюркоязычных народов и 16 геномов монголоязычных калмыков. Метод ADMIXTURE дает количественную оценку вклада разных предковых компонент в каждый индивидуальный геном [20, 29]. Все предковые компоненты моделируются на основе одной и той же совокупности изученных геномов, причем моделирование каждого уровня k проводится независимо от всех остальных. Единственный параметр, который задает исследователь, — число предковых компонент k. При k = 2 для каждого генома моделируется вклад двух предковых компонент; при k = 3 для тех же геномов — вклад трех компонент; при k = 20 реконструируется вклад двадцати предковых компонент для той же совокупности геномов: при увеличении k программа выделяет все более детальные предковые компоненты. При усреднении вклада каждой компоненты в геномы мы оцениваем ее вклад в генофонд популяции.

Для того чтобы рассмотреть, как взаимодействие финноязычных, славянских и тюркоязычных народов отражено в зеркале фармакогенетического ландшафта Рязанских земель, была создана серия фармакогенетических карт. Для этого привлекли данные о 42 ключевых фармакогенетических маркерах (генов ADME; генов, кодирующих фармакодинамические мишени лекарственных средств; генов, кодирующих компоненты системы гемостаза), информация о которых извлечена из того же массива полногеномных данных, для которого проведен и анализ ADMIXTURE [26]. Матрица встречаемости 42 фармакогенетических ДНКмаркеров основана на данных по 16 объединенным популяциям (для увеличения объема выборки). На основе матрицы рассчитаны генетические расстояния М. Нея (d) от рязанской популяции до остальных и созданы 42 карты генетических расстояний. После их усреднения получена карта средних генетических расстояний от рязанской популяции, отражающая особенности ее фармакогенетического статуса в изучаемом регионе.

Все карты — как фармакогенетического ландшафта, так и предковых компонент — построены с помощью оригинального картографического пакета GeneGeo [30] методом средневзвешенной интерполяции с радиусом влияния 400 км и значением весовой функции 3. Детальное описание геногеографической технологии дано ранее [2, 31].

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Моделирование предковых компонент для рассматриваемого круга 47 популяций проведено для 13 уровней k, полученных при последовательном переборе значений k от 2 до 14. Наиболее информативными для решения основной задачи оказались две модели: при k = 3 и k = 7 (таблица). Уровень k = 3 демонстрирует три предковых компоненты, которые можно условно назвать «западная», «уральская» и «восточная» . На уровне k = 7 впервые разделяются предковые компоненты западных и восточных финно-язычных народов, что позволяет дифференцировать их вклад. В таблице приведены оценки вклада каждой из выявленных предковых компонент в геномы каждой из изученных популяций. На рис. 1 представлен вклад каждой предковой компоненты в каждый геном для трех уровней k = 3, k = 7, k = 8. На уровне k = 8 сохранился вклад всех ранее выявленных компонент, новая восьмая компонента выявляет более сложную структуру русских популяций.

Для оценки устойчивости тенденций моделирование каждого уровня от k = 2 до k = 14 проведено 10 раз (130 моделей): при k = 3 результаты практически идентичны; при k = 7 в шести из десяти запусков выявлены стабильные предковые компоненты (именно они описаны в тексте статьи). В остальных четырех запусках одна из предковых компонент заменяется на иную, но каждый из этих запусков характеризуется более высоким значением ошибки моделирования.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Моделирование трех предковых компонент

Полученные результаты прежде всего показывают, что выявляемые предковые компоненты никак не укладываются в ложе трех лингвистических групп — славянской, финской и тюркской (рис. 1, таблица). При k = 3 мы видим три предковых компоненты, которые условно можно назвать «западная», «уральская» и «восточная». «Западная» предковая компонента

Преобладает не только во всех русских популяциях (95%), но и в финноязычных популяциях карел (75%) и мордвы (78%) (рис. 2А, таблица). Более того, она составляет существенную часть генофондов тюркоязычных народов: у казанских татар более половины генофонда (52%) и около четверти генофонда ногайцев (25%) и чувашей (23%).

«Уральская» предковая компонента

Составляет практически весь генофонд удмуртов (99%) и марийцев (91%) (рис. 2Б, таблица). Но высоких значений она достигает также и у тюркоязычных народов, составляя две трети генофонда чувашей (67%) и треть генофонда татар (34%). Меньший, но ощутимый вклад «уральской» предковой компоненты мы видим у карел (24%) и мордвы (19%). Средний вклад в русские популяции мал (4%) с максимумами в Костромской и Нижегородской областях. «Восточная» предковая компонента

Составляет весь генофонд всех шести родовых групп калмыков, поэтому ее можно использовать для оценки влияния Центральной Азии на европейский генофонд (рис. 2В, таблица). Значительной величины она достигает и у ногайцев (62%), что подтверждает ее оценку как «центральноазиатской». В Поволжье наибольшее центральноазиатское влияние обнаружено у казанских татар (14%) и чувашей (9%). В остальных популяциях роль «восточной» компоненты мала и не превышает 5% (у марийцев). Средний вклад в русские популяции составляет всего 1%; он слабо возрастает в восточных районах Нижегородской и Рязанской областей до 3% генофонда.

Казанские татары

Обратим внимание на «составную» структуру генофонда казанских татар, представленных пятью популяциями. Вклад «восточной» предковой компоненты во все популяции оказался одинаковым (14–15%), а небольшие межпопуляционные различия связаны с разным вкладом «западной» компоненты (48–60%) и «уральской» (26–38%). Иными словами, во всех популяциях казанских татар основной вклад составляет «западная» предковая компонента (в среднем более половины генофонда), на втором месте находится «уральская» (в среднем треть генофонда) и лишь на последнем месте — «восточная» (14%). При увеличении числа предковых компонент k появляются новые компоненты, но они характерны для других этносов. Для казанских татар устойчивая «собственная» предковая компонента не обнаружена: «составная» структура генофонда сохраняется и на более высоких уровнях k, что крайне затрудняет выявление генетического влияния казанских татар на соседние русские популяции.

Моделирование семи предковых компонент

При k = 7 появляются новые четыре компоненты. Но при этом нет четкого ветвления «западной» и «уральской» компонент на дочерние, картина намного сложнее: новые компоненты органично вбирают в себя части «западной» и «уральской» компонент, выявленных при k = 3. Подчеркнем, что лишь для лаконичности описания мы даем каждой предковой компоненте условное название по тем популяциям, в геномах которых выявлен их наибольший вклад.

«Карельская» предковая компонента

Отражает вклад западных финноязычных популяций, составляет 94% генофонда карел и редка в остальных популяциях (таблица). Ее вклад максимален в генофонде казанских татар (13%) и костромских русских (11%).

«Славянская» предковая компонента

Доминирует во всех русских популяциях (в среднем 81%, варьируя от 70 до 87%) (рис. 3А, таблица). В других генофондах практически отсутствует. Исключение вновь составляют казанские татары (6%). Но подчеркнем, что повышение частоты «славянской» компоненты у татар нельзя объяснить генеалогией лишь отдельных индивидов, поскольку она выявлена в 80% индивидуальных геномов татар. Встречается эта компонента и в Мордовии (3%), но лишь в 17% геномов на северо-западе ареала мордвы.

«Мордовская-1» предковая компонента  

Делит с «мордовской-2» второе место по обширности ареала (рис. 3Б, таблица). Достигая максимума (53%) среди геномов Мордовии, она широко распространена и в других популяциях. Ее наибольший вклад характерен для тюркоязычных популяций: 36% в генофонд казанских татар, 35% — астраханских ногайцев, 20% — чувашей. Важно, что значительный вклад «мордовской-1» компоненты обнаружен практически во всех индивидуальных геномах этих народов (таблица), что указывает на важность этого генетического пласта в генофонде тюркоязычных народов Поволжья.

В русских популяциях вклад «мордовской-1» предковой компоненты невелик (7%), но она обнаружена в 60% рассмотренных геномах русских. Максимален вклад в Тверской (19%) и Калужской (16%) областях, причем она обнаружена практически у всех индивидов этих областей (80–90% геномов; рис. 4), а в остальных областях присутствует в 45–65% геномов. В целом, «мордовская-1» компонента составляет постоянную часть генофонда практически всех славяноязычных, тюркоязычных и финноязычных популяций региона.

«Мордовская-2» предковая компонента 

Компонента представлена на рис. 3В и в таблице (таблица). Геномы Мордовии резко различаются (рис. 1): одна пятая часть их содержит 100% «мордовской-1», а другая пятая часть — 100% «мордовской-2» компоненты, которая отличается более выраженным своеобразием: именно она проявляется уже на уровне k = 4, в то время как «мордовскую-1» можно зафиксировать только с уровня k = 7. Влияние «мордовской-2» компоненты нигде не превышает 5%. Исключение вновь составляют казанские татары: у них вклад «мордовской-2» компоненты составляет 6%, ее содержат 90% индивидуальных геномов татар (у чувашей она обнаружена лишь в 40% геномов).

В русских популяциях «мордовская-2» предковая компонента довольно редка (в среднем 3%). Однако она не только встречается повсеместно во всех русских популяциях региона, но и присутствует в 60% индивидуальных геномов русских, наиболее часто в геномах на востоке русского ареала — в Костромской, Нижегородской и Рязанской областях (рис. 3В и рис. 4).

«Марийская» предковая компонента

Впервые проявляется на уровне пяти предковых компонент (k = 5) и составляет не только весь генофонд луговых марийцев (96%), но и две трети генофонда чувашей (62%), причем во всех популяциях (57–65%) (таблица). Из других народов самый значительный вклад «марийской» компоненты мы вновь видим у казанских татар (15%), причем она обнаружена во всех индивидуальных геномах. В популяциях других народов вклад «марийской» компоненты нигде не превышает 4% (таблица).

«Удмуртская» предковая компонента

Компонента появляется уже при k = 3 (описана выше как «уральская»; таблица, рис. 2Б) и на всех более высоких уровнях составляет 100% генофонда удмуртов. В геномах всех других народов она крайне редка, не превышая 4% генофонда. Исключением вновь оказываются казанские татары, у которых частота «удмуртской» компоненты повышается до 10% и присутствует практически во всех индивидуальных геномах татар с максимальным вкладом 21%.

«Калмыцкая» предковая компонента

Эта компонента, фиксирующая «дыхание» Центральной Азии, проявляется уже при k = 2 (описана выше как «восточная»; рис. 2В) и ее вклад велик лишь в генофонды калмыков (100%) и ногайцев (61%). Из других народов мы вновь видим наибольший ее вклад лишь у казанских татар (12%), причем «калмыцкая» компонента встречена во всех индивидуальных геномах татар с вкладом от 7 до 17%. Во всех других популяциях вклад «калмыцкой» компоненты не превышает 5% (таблица).

Рязанский генофонд

Современный генофонд Рязанской области представлен в работе четырьмя популяциями (рис. 1рис. 3, таблица) с целью выявить различия во взаимовлиянии дославянского, славянского и тюркоязычного населения в этом узловом регионе. Для этого мы исследовали один район (Михайловский) на самом западе Рязанской области и три района (Спасский, Сапожковский, Сараевский), расположенные на одной трансекте с севера на юг таким образом, что Сараевский является пограничным. Однако результаты свидетельствуют о сходном генетическом облике всех четырех популяций. Наибольшие различия проявились лишь при оценке суммарного вклада финноязычных популяций в их генофонд (таблица): в пограничном Сараевском районе их вклад составил 19%, тогда как в других трех районах — 10–13%. Поскольку центральноазиатское влияние во всех четырех популяциях одинаково мало (1–2%), некоторое своеобразие Сараевской популяции нельзя напрямую связать с особенностями генофонда Золотой орды, как и нельзя приписать влиянию какого-либо из дославянских племен. Единственная гипотеза, которая может быть выдвинута для объяснения своеобразия генофонда на юго-востоке Рязанской земли, — это рост влияния Дикого поля в этом пограничном регионе.

Фармакогенетический статус русских Рязанской области

Важным фактором перехода к персонифицированной медицине служит анализ фармакогенетически значимых маркеров, необходимых для разработки протоколов по подбору оптимальных препаратов и их доз в зависимости от генотипа пациента. Однако основные мировые исследования ориентированы на население Западной Европы и мало применимы к популяциям России, отличающимся огромным генетическим разнообразием [31].

Для оценки своеобразия фармакогенетического ландшафта региона создана карта генетических расстояний (d) от русских Рязанской области по обширной панели фармакогенетических маркеров (рис. 5). В отличие от карт предковых компонент (рис. 2 и рис. 3), созданных по селективно-нейтральным маркерам, фармакогенетические ДНК маркеры выявили наибольшую близость русских Рязанской области к финноязычному соседу — популяциям Мордовии (0,03 < d < 0,04). Фармакогенетический статус русских популяций западнее и севернее Рязани (Калужской, Смоленской и Костромской областей) оказался на втором месте по сходству с рязанскими русскими (0,05 < d < 0,07). За ними по степени удаленности от рязанских русских следуют популяции орловские и тверские (0,08 < d < 0,09). На третьем месте по сходству с фармакогенетическим статусом русских Рязанского края (0,09 < d < 0,10) оказались и тамбовские русские, и восточные соседи — финноязычные марийцы и тюркоязычные чуваши. Ожидаемо резко отличаются от  рязанского фармакогенетические портреты татар и удмуртов (0,11 < d < 0,15). Но самым неожиданным результатом оказался очень высокий уровень фармакогенетических различий между рязанскими и нижегородскими русскими (0,11 < d < 0,12) на фоне их значительного сходства по селективно-нейтральным ДНК маркерам (рис. 1рис. 4).

В целом, сравнение карт фармакогенетического ландшафта и предковых компонент показывает, что для выявления регионов со схожими протоколами по подбору лекарственных препаратов и их доз в зависимости от генотипа пациента нельзя полагаться только на сходство и различия селективно-нейтральных характеристик генофонда, а необходимо прицельно исследовать особенности фармакогенетического ландшафта.

ВЫВОДЫ

Проведено моделирование предковых компонент для аутосомного генофонда современных популяций в узловом регионе взаимодействия финноязычных, славянских и тюркоязычных народов. (1) Для финноязычных популяций Поволжья не выявлена общая предковая компонента, но обнаружены собственные предковые компоненты, характерные для каждого из изученных народов — удмуртов, марийцев, мордвы. При этом след обеих предковых компонент генофонда Мордовии прослеживается практически во всех популяциях региона вне зависимости от их языковой принадлежности. Это позволяет выдвинуть гипотезу, что в генетический портрет дославянского населения региона входили две основные «краски», сохраненные в современном генофонде Мордовии. (2) Влияние генофондов финноязычных популяций на тюркоязычные народы Поволжья очень велико: вклад предковых компонент, связанных с финноязычными народами, составил 81% генофонда казанских татар и 94% генофонда чувашей. (3) Генофонд казанских татар является наиболее «составным» генофондом, в наибольшей мере органично включившим в себя все предковые компоненты всех генофондов региона. Хотя центральноазиатское влияние в наибольшей степени прослеживается именно у казанских татар, вклад его мал (12%) — в семь раз меньше разнообразного вклада финноязычных народов (81%). Поэтому крайне затруднительно оценить «татарское» влияние на другие генофонды. (4) Генофонды изученных русских популяций представляют собой единый массив, который в основном (на 80%) можно описать характерной для них предковой компонентой. Однако при этом их генофонд включает в себя все остальные предковые компоненты, обнаруженные в генетическом ландшафте региона. Популяции Рязанской области целиком воспроизводят общие особенности славянского генетического массива, лишь в пограничной юго-восточной популяции проявляется увеличение общего вклада финноязычных популяций. (5) Анализ генофондов региона по панели фармакогенетически значимых маркеров позволил дополнить картину генетического разнообразия, основанную на селективно-нейтральных маркерах, и выявил своеобразие фармакогенетического ландшафта. Знание его параметров необходимо для будущего внедрения персонифицированного подхода к лечению и разработки протоколов по подбору лекарственных препаратов и их доз, которые бы учитывали генетическое разнообразие населения России.

КОММЕНТАРИИ (0)