ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ

Уточнение статуса некоторых мутаций, считающихся патогенными, с помощью признаков безвредных мутаций

Информация об авторах

1 Отдел биоинформатической обработки данных,
ООО «Генотек», Москва

2 Московский государственный университет имени М. В. Ломоносова, Москва, Россия

3 Центр коллективного пользования отдела биологических наук РАН «Генетический полиморфизм»,
Институт общей генетики имени Н. И. Вавилова РАН, Москва

Для корреспонденции: Дмитрий Олегович Коростин
ул. Губкина, д. 3, г. Москва, 119991 ; moc.liamg@nitsorok.d

Статья получена: 10.02.2016 Статья принята к печати: 19.02.2016 Опубликовано online: 05.01.2017
|

Влияние однонулеотидных полиморфизмов (SNP) на фенотип труднопредсказуемо. Существующие программы, предсказывающие патогенность мутации, имеют ряд недостатков, например низкую чувствительность и специфичность, не превышающую для SNP 75–80 %. Кроме того, стоит отметить, что зачастую инсерции и делеции не аннотируются ими вовсе [1, 2, 3].

Патогенные мутации собирают в базы данных из экспериментальных статей. Примерами таких баз могут быть база Online Mendelian Inheritance in Man (OMIM [4]) и The Human Gene Mutation Database (HGMD [5]). Однако термин «патогенность» имеет широкую интерпретацию, однозначного мнения по поводу его значения не существует. Это приводит к тому, что базы данных применяют разные подходы к выбору мутации для включения, и, следовательно, данные в разных базах неодинаковы и нуждаются в уточнении.

Непатогенные мутации чаще всего идентифицируют по косвенным признакам: частоте аллелей в популяции и влиянию на аминокислотную последовательность белка. По мере появления новых данных эти признаки могут помочь понять, как можно усовершенствовать существующие базы. Знание того, что мутации, описанные как патогенные, подпадают под критерии непатогенных вариантов, важно для практического использования данных из этих баз. Это знание может помочь в понимании и того, почему одни генетические варианты влияют на фенотип, а другие — нет.

Для специалистов, опирающихся в своих исследованиях на базу данных HGMD может быть неочевидно, что в настоящее время она несет помимо однозначно патогенных мутаций также безвредные, оцененные как патогенные. В рамках данной работы была проведена биоинформатическая оценка патогенности мутаций, включенных в HGMD. Мы сравнивали частоты аллелей, аннотированных в HGMD, с таковыми в Exome Aggregation Consortium 0.3 [6], а также анализировали влияние мутаций из HGMD на аминокислотную последовательность белка и предсказывали их патогенность с помощью наиболее часто используемых биоинформатических инструментов: snpEff, polyphen2 и SIFT.

МАТЕРИАЛЫ И МЕТОДЫ

В качестве списка патогенных мутаций использовали публичную версию базы HGMD за IV квартал 2014 года, содержащую 73 208 мутаций. Частоты аллелей для них вычислили с помощью snpEff 4.0. Полученные данные сопоставили с частотами аллелей в Exome Aggregation Consortium 0.3, которая содержит полноэкзомные и полногеномные данные секвенирования образцов 60 706 не связанных между собой пациентов. Частота аллелей в ExAC установлена для шести популяций: африканской, латиноамериканской, восточноазиатской, южноазиатской, финской и европейской (не включающей финскую). Все неустановленные образцы сгруппированы в популяцию, названную «Другие». Число генотипированных образцов индивидуумов для каждой аннотируемой мутации на момент обращения к базе варьировалось в различных популяциях: от порядка 500 для «Других» до 30 000 для европейцев. Сопоставление частот аллелей двух баз произвели с помощью bcftools [7].

Мутации из базы HGMD, влияющие на аминокислотную последовательность белка, были установлены с snpEff 4.0 [8]. Возможный уровень патогенности был предсказан с использованием утилит polyphen2 и SIFT. Эти утилиты являются стандартными для предсказания патогенности мутаций, и ни одна из них не использовала данные из базы HGMD как обучающую выборку.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Аннотация snpEff

Мутации из базы HGMD были проаннотированы snpEff, в результате были получены частоты каждого типа мутаций (в соответствии с классификацией snpEff). Мы обнаружили, что во многих случаях мутации имеют более чем одно предсказание, т. е. относятся к нескольким типам мутаций одновременно. Обычно это происходит из-за того, что мутация локализована внутри гена и для аннотации мутации использовались соседние гены. Мы отфильтровали типы мутаций для каждого варианта, имеющего больше чем один тип, оставляя только тот тип, который имел наибольшее влияние в соответствии с предложенным создателями утилиты snpEff алгоритмом (таблица) [8].

Аннотация с ExAC

18 159 (25 %) мутаций из базы HGMD описаны в ExAC.

Результаты, полученные с помощью polyphen2 и SIFT

Мы предсказали вес мутаций используя утилиты polyphen2 и SIFT. Polyphen2 имеет два вида моделей для предсказания патогенности: HumDiv и HumVar. Согласно описанию разработчиков, HumVar лучше предсказывает менделирующие заболевания, в то время как HumDiv лучше подходит для комплексных фенотипов и аллелей из категории условно патогенных [9]. Мы выбрали модель HumDiv чтобы использовать более широкое определение патогенности. Пороги отсечения патогенных и вероятно патогенных вариантов были установлены по умолчанию.

Polyphen2 проаннотировал 52 248 мутаций, из которых 39 032 (72 %) были определены как патогенные и 6 220 (11 %) — как вероятно патогенные. Утилита SIFT проаннотировала 53 097 мутаций, из которых 34 638 (65 %) были определены как патогенные и 4 358 (8 %) — как вероятно патогенные (с низкой вероятностью). Обе утилиты смогли распознать введенные в базу варианты как патогенные в 70–80 % случаев, что соотносится с их ожидаемой эффективностью [2, 3].

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Использование базы ExAC в качестве ресурса, содержащего информацию о частотах аллелей

Техническое описание ресурса ExAC пока не выпущено, но известно, что база включает данные не только популяционно-генетических исследований, но также проектов секвенирования образцов пациентов с различными заболеваниями. Мы полагаем, что в таких проектах используют меньшее число образцов, чем в популяционно-генетических исследованиях, и их влияние на результирующую частоту должно быть несущественным, особенно если были проанализированы образцы большого числа индивидуумов в популяционно-генетических исследованиях. Поэтому из анализа мы исключили мутации, которые были генотипированы только у нескольких индивидуумов. За исключением этого мы считаем, что ExAC можно уверенно использовать для оценки частот в таких исследованиях, как наше. Авторы этой базы данных утверждают, что она может использоваться в качестве эталонного набора частот аллелей для изучения заболеваний.

Наличие синонимичных мутаций в базе HGMD

95 % всех мутаций из базы HGMD распределялись snpEff на две группы: миссенс-мутации и нонсенс-мутации. Однако приблизительно 2,5 % мутаций определялись как синонимические (таблица). Хотя патогенность синонимичных вариантов описана в литературе, в большинстве случаев синонимичные мутации считаются безвредными. Мы сфокусировались на этой группе как на группе вариантов с наиболее спорной патогенностью. Утилита polyphen2 вообще не выполняет оценку патогенности синонимичных мутаций, поскольку опирается в первую очередь на влияние мутации на аминокислотную последовательность белка. Утилита SIFT позволяет выполнять оценку синонимичных мутаций на патогенность, и она определила лишь 4 из 1793 синонимичных мутаций как патогенные. Высока вероятность того, что остальные 1789 мутаций (~2,5 % всех мутаций в HGMD) на самом деле не являются патогенными, поскольку не имеют никаких других признаков патогенности.

Анализ синонимичных патогенных мутаций в базе HGMD

Только одна из четырех синонимичных мутаций HGMD, которые были оценены как патогенные инструментом SIFT, описана в dbSNP [10]. Это мутация NM_005228.3:с.2361G>A (NP_005219.2:p.Gln787=) c rsid rs1050171. Согласно данным Zhang и соавт. [11], эта мутация связана с раком легких, молекулярный механизм ее действия не определен. Альтернативный (мутантный) аллель А присутствует с частотой около 43 %, согласно данным проекта «1000 геномов», представленным в dbSNP. База ClinVar [12] определяет этот SNP как непатогенный [13]. Причины определения данной мутации как патогенной инструментом SIFT, видимо, связаны с консервативностью позиции, где произошла мутация. Она располагается в 3-м положении кодона, которое обычно менее консервативно, чем 1-е и 2-е положения и получает меньшую оценку. Однако для этой мутации оценка эволюционной консервативности PhyloP Vertebrate, полученная из UCSC Genome Browser [14], с оценкой 1-го и 2-го положения в близлежащих кодонах гораздо выше, чем оценка других нуклеотидов, располагающихся в 3-м положении кодона, что говорит о высокой консервативности данного нуклеотида.

В конце концов, истинную природу этой мутации определить очень сложно. С одной стороны, существуют доказательства в пользу того, что эта мутация непатогенная: данные базы ClinVar, синонимический тип, высокая частота аллельных вариантов в популяции. С другой стороны, результаты предсказывания с помощью утилиты SIFT данных базы HGMD и высокая эволюционная консервативность — доказательства в пользу патогенности этого варианта. Это пример иллюстрирует сложность предсказания патогенности мутации: даже ручной анализ не может обеспечить однозначного толкования результатов, поскольку тип мутации зависит от выбора инструмента анализа.

Варианты, в которых мутация присутствует только в гетерозиготе

Для анализа мутаций, отсутствующих в образцах в гомозиготном состоянии, мы выделили четыре мутации, каждая из которых присутствовала в гетерозиготе на уровне более 75 % и в гомозиготе на уровне менее 5 % (по крайней мере в базе ExAC):

  1. chr1:1650845G>A (rs1059831, ген CDK11A, HGMD фенотип: связана с диабетом 2-го типа) [15],
  2. chr2:112614429G>A (rs72936240, ген ANAPC1, HGMD фенотип: дефицит белка, связанный с риском возникновения рака) [16],
  3. chr7:142458451A>T (rs111033566, ген PRSS1, HGMD фенотип: наследственный панкреатит) [17],
  4. chr17:7197581G>T (rs189257850, ген YBX2, HGMD фенотип: связана с мужским бесплодием) [18].

Мутации 2 и 3 никогда не были представлены в гомозиготе ни для одной популяции, мутация 1 была представлена в гомозиготе только в одном из 8 209 образцов в южно- азиатской популяции. Для мутации 4 по непонятным причинам было генотипировано всего 203 образца, тогда как, например, для мутаций 1–3 — приблизительно 60 000. Для мутации 4 как гомозиготы были описаны 1 человек из 52 в восточноазиатской популяции и 13 из 62 — в латиноамериканской.

Объяснение существования этих мутаций в основном в гетерозиготе, возможно, связано с тем, что данные мутации в гомозиготе приводят к летальному исходу или, по крайней мере, не могут быть унаследованы. На основе анализа фенотипов мутации 2 и 4 могут быть исключены как гомозиготы вследствие ранней смерти или бесплодия носителей. Мутация 4 является самой интересной, однако, это единственный вариант который не был широко генотипирован. Трудно понять, почему данная мутация имеет высокую частоту в одной из популяций и почему количество проанализированных индивидуумов в популяции настолько мало. Поскольку количество проанализированных лиц невелико, то, возможно, что эти данные о частоте были получены из анализа пациентов с заболеванием (см. выше описание особенностей базы ExAC), поэтому никаких предсказаний для этого варианта нельзя сделать. Мутация 2 может быть описана как летальная в состоянии гомозиготы. Мы предполагаем, что хотя мутации 1 и 3 неочевидно приводят к смерти, имеющиеся данные свидетельствуют, что эти мутации в гомозиготе приводят к смертельному исходу или к бесплодию.

ВЫВОДЫ

Определение патогенности мутации является сложной задачей. Иногда ни автоматизированный, ни ручной анализ не дают возможности отнести ее к числу однозначно патогенных или безвредных. Однако в отсутствие экспериментальных данных по изучению трансгенных организмов с изучаемой мутацией существующие базы данных все же могут быть полезны для анализа патогенности, но необходимо пользоваться ими с осторожностью. Автоматическое использование этих баз ограничено качеством данных, представленных в них. Важно вручную проверять утверждения о патогенности мутации, сделанные в экспериментальных статьях, особенно если они не согласуются с предсказанием, сделанным базой.

КОММЕНТАРИИ (0)