ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ

Точность предикции пигментации волос и глаз по генетическим маркерам для популяций России

Информация об авторах

1 Медико-генетический научный центр, Москва, Россия

2 Институт общей генетики имени Н. И. Вавилова Российской академии наук, Москва

3 Биобанк Северной Евразии, Москва, Россия

4 Московский физико-технический институт (Научно-исследовательский университет), Москва, Россия

5 Федеральный научно-клинический центр физико-химической медицины, Москва, Россия

6 Институт этнологии и антропологии Российской академии наук, Москва, Россия

7 Научно-исследовательский институт и музей антропологии имени Д. Н. Анучина, Москва, Россия

Для корреспонденции: Елена Владимировна Балановская
ул. Москворечье, д. 1, Медико-генетический научный центр, г. Москва, 115522; ur.liam@aksvonalab

Информация о статье

Финансирование: исследование выполнено при финансовой поддержке Министерства науки и образования РФ (Госконтракт № 011–17 от 26.09.2017) в рамках научно-технической программы Союзного государства «ДНК-идентификация» (работы по генотипированию, по фенотипированию европейских образцов, подготовке текста статьи) и Государственного задания Министерства науки и высшего образования РФ для Медико-генетического научного центра им. академика Н. П. Бочкова (работы по фенотипированию сибирских образцов, созданию базы данных, анализу данных).

Благодарности: благодарим всех доноров образцов. Коллекция ДНК и антропологических фотографий предоставлена АНО «Биобанк Северной Евразии».

Вклад авторов в работу: Е. В. Балановская — дизайн и руководство исследованием; В. С. Петрушенко и И. О. Горин — биоинформатический анализ и анализ литературы, написание текста статьи; А. М. Маурер, Н. А. Лейбова — фенотипирование образцов; Ж. А. Кагазежева — фенотипирование образцов, фотографирование и обработка фотографий, работа с табличными данными; О. П. Балановский и Н. В. Маркина — написание текста статьи; Е. С. Кострюкова — генотипирование.

Статья получена: 22.10.2019 Статья принята к печати: 26.10.2019 Опубликовано online: 28.10.2019
|

В течение последней декады определение вероятного цвета глаз и волос по ДНК стало важной частью судебно-медицинских и популяционно-генетических исследований, поскольку позволяет определить вероятную внешность человека, информация о котором ограничена его биологическим образцом. Такое определение используют при поиске правонарушителей, идентификации жертв катастроф, при изучении образцов ДНК из древних популяций, в генетической генеалогии и других областях исследований. Во множестве исследований [110] выявлены некоторые ключевые гены и сайты внутри этих генов, вовлеченные в фенотипы по пигментации. Наиболее важные сайты были включены в HIrisPlex-систему и ее расширенный вариант HIrisPlex-S, позволяющий определять и вероятный цвет кожи [811]. Генотипирование 25 маркеров (SNP и инделы) [10] помогает быстро и надежно предсказывать цвет глаз и волос (HIrisPlex); дополнительные 16 маркеров предсказывают также цвет кожи (HIrisPlex-S).
При публикации этой системы предикции пигментации по генотипу [811] показано, что такое предсказание надежно для популяций европейского происхождения, однако эту систему и разрабатывали на образцах из европейских популяций, в основном для голландцев (верификация проведена на населении Польши, Греции и Ирландии). Точность HIrisPlex для популяций из других регионов мира не проверяли. Конечно, для населения большинства других континентов проверка этой системы не информативна, поскольку большинство неевропейских популяций имеют только темные глаза и темные волосы. Но в некоторых популяциях из пограничных регионов между Европой и Азией (например, Алтая, Кавказа, Зауралья) распространен как темный, так и светлый фенотип глаз/волос. При этом они генетически значительно отличаются от западных европейцев [12], а значит, могут отличаться и по спектру генетических маркеров, определяющих степень пигментации. Даже популяции из уральского региона, генетически более близкие к западноевропейцам, чем популяции Кавказа и Западной Сибири, все же генетически значительно более удалены от голландцев, чем ирландцы, поляки и греки, образцы которых использовали для верификации HIrisPlex.
Целью работы было в ходе экспедиционных обследований коренного населения и фотографирования индивидов оценить предсказательную силу системы HIrisPlex-S для цвета глаз и волос на различных популяциях Северной Евразии.

ПАЦИЕНТЫ И МЕТОДЫ

Сбор образцов и фенотипирование

В ходе экспедиционных обследований генофондов, проводимых нашим научным коллективом [13], были сделаны антропологические фотографии представителей коренного населения различных народов России и сопредельных стран. Обследование популяций, включенных в настоящее исследование, проводили в ходе нескольких полевых выездов в 2015–2019 гг. Критериями включения в исследование были: 1) возраст старше 18 лет; 2) самоидентификация четырех предков обследуемого (двух дедушек и двух бабушек) как принадлежащих к данному народу; 3) наличие антропологической фотографии обследуемого; 4) наличие письменного информированного согласия на участие в обследовании. Критерии исключения: 1) недостаточное качество фотографий, не позволяющее надежно определить цвет глаз и волос; 2) отсутствие полного профиля генотипированных маркеров.
В результате применения данных критериев в исследование включили 144 индивидуума из следующих популяций:
1) Европейская часть России — русские, марийцы, чуваши, карелы, рутульцы, аварцы (n = 66, из них 65 мужчин и 1 женщина);
2) Сибирь и Дальний Восток — буряты, эвенки, эвены, нанайцы, коряки, ительмены, чукчи, алеуты (n = 78, из них 45 мужчин и 33 женщины).
Фенотипы цвета глаз и волос определяли по фотографиям три эксперта: двое — физические антропологи с большим опытом фенотипирования, третий — генетик, специально обученный фенотипированию. Все эксперты выполняли фенотипирование независимо, и в тех случаях, когда определенные ими фенотипы различались, проводили тщательное совместное определение до достижения консенсусной оценки. Цвет глаз — темный, светлый или смешанный — был успешно определен для всех 144 индивидов. Цвет волос был определен для меньшего числа образцов в связи с невозможностью определения натурального цвета волос женщин по фотографиям, а также наличия некоторого числа мужчин с сединой или облысением. Результаты фенотипирования представлены в табл. 1.

Генотипирование и предикция цвета глаз и волос по генотипу

ДНК из образцов крови или слюны выделяли классическим методом фенол-хлороформной экстракции [14]. Генотипирование проводили на основе использования биочипа Infinium Omni5Exome-4 v1.3 BeadChip (Illumina; США) на платформе iScan. Качество оценивали с помощью рекомендованного производителем программного обеспечения GenomeStudio v2.0. (Illumina; США). Для всех образцов интегральная оценка качества (CR — CallRate) составила выше 0,99, что говорит о пригодности полученных результатов для дальнейшей обработки. Использованная панель включает более 4 млн SNP-маркеров, поэтому полученные результаты применяют в целом ряде исследований. В рамках данного исследования из этого массива данных были извлечены генотипы по 29 маркерам, входящим в панель HIrisPlex и используемым для предсказания цвета глаз, волос и кожи. Всего в HIrisPlex-S 25 маркеров цвета глаз и волос и 16 маркеров цвета кожи. Из этих маркеров нами успешно генотипированы 19 маркеров предсказания цвета глаз и волос и 10 маркеров, по которым предсказывают цвет кожи. Панель HIrisPlex допускает использование неполного профиля генотипирования (ключевое значение имеют несколько обязательных маркеров, остальные лишь немного увеличивают точность предикции), поэтому использование 19 маркеров из 25 достаточно для качественной предикции с помощью HIrisPlex (маркеры для предсказания цвета кожи не были учтены в нашем исследовании). Пояснения требует обработка пропущенных генотипов только по одному маркеру — rs312262906. При использовании системы HIrisPlex-S без этого маркера были получены предсказания только цвета глаз, но не цвета волос. Данный полиморфизм приводит к сдвигу рамки считывания в гене MC1R и ассоциирован с рыжим цветом волос. Частота встречаемости этого полиморфизма, по данным ExAC, составляет 0,0038 для Европы и 0,0000 (менее 0.0001) для Азии, поэтому вероятность присутствия хотя бы двух альтернативных аллелей в нашей выборке ничтожна. Это позволило нам для целей получения предсказания цвета волос присвоить данному маркеру генотип 0/0 для всех образцов.
Отбор генотипов проводили с помощью программного обеспечения PLINK 1.9 [15]. Полученные генотипы представлены в табл. 2.
С использованием системы HIrisPlex-S с помощью онлайн-инструмента Департамента генетической идентификации Erasmus MC [16] были получены предсказания цвета глаз (светлые, промежуточные или темные) и волос (рыжие, светлые, промежуточные или темные) для всех образцов.

Оценка точности предсказания цвета глаз и волос

Фенотипы, предсказанные системой HIrisPlex на основе генотипов, сопоставляли с истинными фенотипами, определенными антропологами по фотографиям, и рассчитывали статистические показатели качества предсказания для всех 144 образцов. Полученные нами шкалы, состоящие из пяти градаций пигментации глаз и волос, конвертировали в трехградационные шкалы, чтобы фенотипирование было сопоставимо с результатами по HIrisPlex-S.
Для того чтобы проанализировать точность результатов предсказаний, полученных с помощью системы HIrisPlex-S, оценивали следующие параметры качества алгоритма:
– precision (отношение истинно положительных значений к общему количеству образцов, которые классификатор отнес к данному классу);
– recall (отношение количества истинно положительных значений к общему количеству образцов этого класса);
– accuracy (доля данных, для которых класс был определен правильно);
– F₁-мера (среднее гармоническое между precision и recall классификатора);
– показатели AUC (area under curve — площадь под кривой) для ROC-кривых (график зависимости доли истинно положительных результатов относительно общего количества образцов от доли ложноположительных значений относительно общего количества образцов при варьировании порога решающего правила).
Значения этих оценок качества представлены в табл. 3 и табл. 4.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Мы провели фотографирование 144 представителей коренного населения Европейской части России и Сибири. Образцы ДНК тех же 144 индивидов были генотипированы по маркерам, входящим в панель HIrisPlex. Составили комбинированную базу, включающую фенотипические и генотипические данные по каждому индивиду.
Для оценки качества стандартной системы предсказания цвета глаз и волос (HIrisPlex-S) на новых фенотипированных популяциях мы предсказали цвет глаз и волос по генотипу, используя онлайн-ресурс [16]. В табл. 5 представлены результаты предсказания цвета глаз для каждого индивида. В целом, табл. 1 и табл. 5 позволяют сравнить реальные и предсказанные фенотипы для каждого отдельного образца. Показатели качества предсказания для всего массива данных представлены в табл. 3.

Значения наиболее часто используемого показателя качества (AUC) по разным классам колеблются от 0,89 до 0,59 и в среднем составляют 0,79. Эти показатели, рассчитанные для популяций России, несколько снижены по сравнению с аналогичными показателями для Западной Европы (0,89). Например, для светлых глаз в Западной Европе AUC составляет 0,94, а в России — 0,89. Снижение можно наблюдать по всем классам цвета и глаз, и волос. Отметим, что в связи с малочисленностью в нашей выборке двух фенотипических классов — смешанных оттенков глаз и светлых волос — мы не приводим в таблице показатели точности для этих классов. При необходимости они могут быть рассчитаны из первичных данных табл. 1 и табл. 5. Они еще более снижены по сравнению с аналогичными показателями для Западной Европы, но объем выборки для этих классов — менее пяти индивидов — не позволяет доверять показателям для этих двух классов.

Популяции России генетически чрезвычайно гетерогенны, и мы намеренно включили в выборку генетически контрастные группы коренного населения — Европейской части России и Сибири. табл. 4 демонстрирует качество предикции цвета глаз HIrisPlex для этих двух метапопуляций (качество предикции цвета волос не оценивали в связи с меньшим объемом выборки, см. Пациенты и методы). Оказалось, что точность предсказания цвета глаз для популяций Европейской части России близка к точности предсказания для объединенной выборки, — можно наблюдать некоторое снижение по сравнению с Западной Европой, но в целом приемлемую точность (AUC около 0,8). Ситуация для популяций Сибири оказалась значительно хуже: показатели AUC около 0,6.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Основой нашего исследования послужила коллекция антропологических фотографий представителей различных групп коренного народонаселения России. Фотографии, выполненные в трех проекциях с соблюдением антропологических стандартов, представляют собой ценный ресурс для этого и последующих исследований, направленных на выявление ассоциаций отдельных фенотипических признаков с генетическими маркерами. В данном исследовании фотографии использовали для определения цвета глаз и цвета волос. Проведение фенотипирования тремя независимыми экспертами и наличие фотографий для перепроверки (при необходимости) делают результаты этого исследования надежными и воспроизводимыми.
Для генотипирования из ряда предложенных наборов генетических маркеров мы воспользовались наиболее полной, современной и популярной системой HIrisPlex-S, хорошо себя зарекомендовавшей в исследованиях современных и древних популяций Западной Европы [8, 11, 17]. Сравнение реальных фенотипов (определенных по фотографиям) и фенотипов, предсказанных по генотипам, позволило оценить точность этой панели для популяций за пределами Западной Европы. Из ряда показателей качества предсказания (табл. 3) наибольший интерес представляет AUC, поскольку значения этого показателя опубликованы для результатов применения HIrisPlex на популяциях Западной Европы [16]. Поэтому мы смогли напрямую сравнить эффективность этой системы для популяций Западной Европы и России.

В целом значения показателей качества предикции, полученные для большинства классов (см. табл. 3), оказались достаточно велики (0,6–0,9), чтобы использование предикции по HIrisPlex было обоснованным и для российских популяций. Ни одна система предикции фенотипа по генотипу не может претендовать на стопроцентную точность, и показатели HIrisPlex даже в Западной Европе не по всем классам превышают 0,9. Поэтому в целом мы считаем, что проверка HIrisPlex на популяциях России продемонстрировала работоспособность этой системы и удовлетворительные значения точности предсказания. В то же время точность предсказания для популяций России все же ниже, чем для популяций Западной Европы (в среднем 0,8 для России и 0,9 для Западной Европы). Поэтому мы считаем, что HIrisPlex может быть использована для российских популяций, но рекомендуем при интерпретации результатов учитывать обнаруженное нами снижение показателей точности.
В нашем исследовании российские популяции были сгруппированы в две региональные базы данных: Европейская часть России и Сибирь. Предыдущие популяционно-генетические исследования [:lit_18,; 19] продемонстрировали, что эти метапопуляции контрастны по генетическому происхождению. Они оказались контрастными и по качеству предикции фенотипов, значительно сниженной для Сибири (см. табл. 4). Исходные данные (см. табл. 1 и табл. 5) показывают, что HIrisPlex предсказывает темные глаза практически для всех сибирских образцов, тогда как у некоторых представителей сибирских народов цвет глаз определен как светлый (даже с учетом условности границы между светлыми и промежуточными оттенками цвет глаз этих индивидов в любом случае не темный, как предсказывает HIrisPlex). Можно предполагать, что светлый цвет глаз, изредка встречающийся у представителей коренных народов Сибири, связан с иными аллелями (возможно, и с иными генами), чем у европейцев, и именно поэтому разработанная на данных о западных европейцах панель не может корректно предсказать светлый (не темный) цвет глаз в этих популяциях. Некоторое снижение показателей точности на популяциях Европейской части России может иметь ту же природу, но, поскольку генетически эти популяции намного ближе к популяциям Западной Европы, то особенности спектра аллелей и, соответственно, снижения точности предикции выражены не так заметно. Это открывает перспективу проведения дополнительных исследований на популяциях России, направленных на поиск дополнительных генетических маркеров, улучшающих предикцию фенотипов пигментации по генотипу.

ВЫВОДЫ

Проведенный анализ корреляции генотипа и фенотипов пигментации волос и глаз в популяциях России на основе широко используемой панели HIrisPlex-S в целом подтвердил эффективность применения классической HIrisPlex-S-панели для этих ранее не изученных популяций, хотя ее точность оказалась ниже, чем для групп западноевропейцев, для которых данный классификатор был разработан. Снижение точности для популяций Европейской части России не так велико (например, с 0,94 до 0,89), как для популяций Сибири. Это снижение может быть обусловлено влиянием популяционно-специфических SNP, которые представлены в популяциях Северной Евразии, но редки в Западной Европе и поэтому не вошли в панель HIrisPlex-S.

КОММЕНТАРИИ (0)