МЕТОД

Подход к кластеризации пациентов по микрочиповым данным внутри отдельных локусов с использованием комбинаций вариантов

Л. Н. Юльметова, Н. А. Кулемин, Е. И. Шарова
Информация об авторах

Федеральный научно-клинический центр физико-химической медицины имени Ю. М. Лопухина Федерального медико-биологического агентства, Москва, Россия

Для корреспонденции: Елена Ивановна Шарова
ул. Малая Пироговская, д. 1с3, г. Москва, 119435, Россия; moc.liamg@87avorahs

Информация о статье

Финансирование: работа выполнена в рамках гранта Президента РФ для молодых ученых-кандидатов наук МК-2951.2022.1.4.

Благодарности: авторы благодарят dbGaP за предоставление доступа к наборам данных phs000421.v1.p1 и phs000001.v3.p1. Набор данных с регистрационным номером dbGaP phs000421.v1.p1 получен из исследования генетики эндотелиальной дистрофии роговицы Фукса (FECD) https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000421.v1.p1. Авторы признают гранты, финансировавшие регистрацию случаев и контролей, которые будут использоваться в этом GWAS: R01EY016514 (DUEC, PI: Gordon Klintworth), R01EY016482 (CWRU, PI: Sudha Iyengar) и 1X01HG006619-01 (PI: Sudha Iyengar, Натали Афшари). Авторы благодарят участников FECD и исследовательскую группу FECD за их ценный вклад в это исследование. Набор данных с регистрационным номером dbGaP phs000001.v3.p1 получен из базы данных исследования возрастных заболеваний глаз (AREDS) по адресу https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000001.v3.p1. Финансовая поддержка AREDS была предоставлена Национальным глазным институтом (N01-EY-0-2127). Авторы благодарят участников AREDS и исследовательскую группу AREDS за их ценный вклад в это исследование. Авторы благодарят научного сотрудника ФГБУ ФНКЦ ФХМ имени Ю. М. Лопухина Л. О. Скородумову за ценные предложения, замечания и поддержку.

Вклад авторов: Е. И. Шарова — идея и подбор данных; Е. И. Шарова, Л. Н. Юльметова — планирование и выбор методов; Н. А. Кулемин — финансирование и администрирование проекта; Л. Н. Юльметова — разработка и вычисления; Е. И. Шарова, Л. Н. Юльметова, Н. А. Кулемин — обсуждение результатов, написание и редактирование статьи.

Соблюдение этических стандартов: исследование проведено с соблюдением принципов Хельсинкской декларации, с использованием наборов данных проектов phs000421.v1.p1 и phs000001.v3.p1., доступ к которым одобрен и получен через dbGaP в соответствии с их политикой одобрения и доступа к конкретным сетам данных.

Статья получена: 12.12.2022 Статья принята к печати: 20.01.2023 Опубликовано online: 12.02.2023
|

Поиск биологического обоснования наследуемости фенотипов является одной из основных задач современной медицинской генетики. Исторически все известные подходы к поиску патогенных геномных вариантов делят на две группы: биологические и математические. К биологическим методам относятся подходы объяснения фенотипа на основе изученных биохимических процессов, а к математическим — различные статистические подходы. В случае, когда невозможно напрямую проследить биохимическую цепь формирования фенотипа, но развитие заболевания явно отягощено семейным анамнезом, применяют различные статистические подходы: полногеномные ассоциативные исследования (GenomeWide Association Studies, GWAS) [1], методы оценки полигенных рисков (Polygenic Risk Score, PRS) [2], подходы по выделению гаплотипов [3] и другие методы. Однако у каждого из методов есть свои особенности и ограничения. При вычислении по алгоритмам GWAS полиморфизм оценивают независимо, а затем производят фильтрацию по критерию значимости. Таким образом, результат любого заболевания, являющегося совокупностью редких наследуемых мутаций, с помощью данного подхода будет некорректным, так как максимально значимыми окажутся не относящиеся к фенотипу полиморфизмы или вообще ни один полиморфизм не преодолеет критерии фильтрации. Подход PRS представляет собой расширение методологии GWAS, однако он тоже основан на предположении, что все используемые в модели однонуклеотидные варианты (single nucleotide polymorphisms, SNP) независимы. К тому же PRS-модели не воспроизводятся между популяциями при воспроизводимости локусов точек, на которых они построены, т. е. использования одиночных вариантов явно недостаточно для построения моделей и классификации пациентов. Кроме того, существует значительное количество заболеваний, генетическую структуру которых не удается определить ни биологическими, ни популярными статистическими подходами. Чаще всего в основе алгоритма наследования таких фенотипов находятся гаплотипные структуры. Под гаплотипом подразумевается линейно сцепленная совокупность из нескольких (в том числе до нескольких сотен) вариабельных вариантов, которые совместно образуют небольшое (менее 100, в среднем 10–20) количество вариантов аллелей. Подход с выявлением конкретных вариантов гаплотипов активно используют в фармакогенетике при анализе цитохромов P450. Для CYP2D6, например, существует более 120 гаплотипных вариантов, которые обусловлены более чем 500 полиморфизмами [4]. Однако подобный подход очень редко обсуждают для большинства локусов полигенных заболеваний.

Особой популярностью GWAS-исследования пользуются при изучении заболеваний с вовлечением нервной системы, в том числе нарушений развития и нейродегенеративных патологий с полигенной природой, таких как боковой амиотрофический склероз, болезнь Паркинсона, шизофрения, патологии аутического спектра. Они позволяют выявлять участки генома, изменения в которых перепредставлены у больных по сравнению с общей популяцией. Интересным свойством GWAS является возможность выявления локусов, патогенным вариантом в которых является не однонуклеотидный вариант из структуры чипа, а структурная вариация, напрямую чипом не детектируемая, но выявляемая по сцепленным с ней SNP. В частности, в GWAS бокового амиотрофического склероза детектируется локус в гене C9orf72, содержащий увеличенный шестинуклеотидный повтор G4C2 (GGGGCC) [5], при этом варианты повтора непосредственно чипом не детектируются. В GWAS болезни Хантингтона выявляется локус гена HTT в 15-й хромосоме, содержащий тринуклеотидные повторы [6], при этом в чипе нет проб, соответствующих непосредственно участку повтора.

Эндотелиальная дистрофия роговицы Фукса (ДФ) — наследственное заболевание глаз, характеризующееся уменьшением количества эндотелиальных клеток роговицы, поддерживающих водный баланс стромы роговицы. ДФ является полигенным заболеванием и представляет значительный интерес для исследования генетики [7]. Существуют две формы ДФ: ранняя и поздняя. Они различаются генетическими причинами. Ранняя форма диагностируется в возрасте до 50 лет, встречается очень редко и связана с патогенными вариантами гена COL8A2 [8]. Поздний дебют ДФ проявляется в возрасте старше 50 лет и является наиболее распространенной формой ДФ. Было показано, что поздний дебют ДФ ассоциирован с экспансией тринуклеотидных повторов CTG18.1 в интроне гена TCF4 [9]. По нашим данным и данным зарубежных авторов, экспансия тринуклеотидных повторов CTG18.1 в гене TCF4 является наиболее частым вариантом, ассоциированным с ДФ, среди популяций европейского происхождения. Экспансия по крайней мере одного аллеля тринуклеотидного повтора CTG18.1 была обнаружена примерно у двух третей пациентов с ДФ в когортах европейского происхождения. Позднее Афшари и др. [10] предприняли попытку с помощью GWAS в большой когорте найти другие варианты, связанные с ДФ. Они подтвердили ассоциацию установленного локуса TCF4, а также идентифицировали три новых локуса в генах KANK4, LAMC1 и вблизи гена ATP1B1, однако их независимость от экспансии тринуклеотидного повтора не была проверена [10]. Обсуждается также роль мутаций в генах ZEB1 [11], SLC4A11 [12], AGBL1 [13] и LOXHD1 [14] как каузальных и независимых от экспансии повторов для реализации ДФ. Вопрос о том, является ДФ набором фенокопий или полигенным заболеванием, до сих пор остается открытым. Но известное бессимптомное носительство экспансии повторов [9, 15] и спорность четкой моногенной связи ДФ с некоторыми другими генами позволяют предположить, что ДФ с поздним началом — это набор полигенных фенокопий, что делает ее схожей с другими болезнями экспансий с поздней манифестацией.

В связи с этим представляется интересным вопрос — можно ли и с какой точностью разделить пациентов на группы внутри локусов по результатам GWAS. И если речь идет о ДФ позднего начала, можно ли по данным микрочипового анализа определить пациентов с фенокопией с экспансией и без нее? Сравнимы ли для этих целей использование гаплотипного подхода/комбинаций вариантов и носительство минорных аллелей отдельных генетических вариантов? Целью данной работы было разработать и проверить подход разделения пациентов на группы на основе результатов чип-генотипирования и полногеномного ассоциативного исследования (GWAS).

ПАЦИЕНТЫ И МЕТОДЫ

Изложенный в статье анализ был выполнен на образцах следующих двух выборок базы данных dbGaP: мультицентрового исследования по изучению дистрофии Фукса (FECD Genetics Multi-center Study) [16] и исследования возрастных заболеваний глаз (Age-Related Eye Disease Study AREDS, Refractive Error Substudy) [1718] с использованием чипов Illumina HumanOmni2.5-4v1.

Клинические проявления заболевания были классифицированы с использованием модифицированной оценочной шкалы Krachmer J., основанной на результатах биомикроскопии щелевой лампой [19].

Контроль качества данных осуществляли на уровне образцов и на уровне вариантов. Для подготовки данных генотипирования использовали программное обеспечение PLINK 1.9 [20], GRAF 2.4 [2122], а также собственный программный код, написанный на языке R версии 4.1.0.

Для контроля качества вариантов на первом шаге были удалены генотипы с низкими показателями качества прочтения GenCall (GC) путем удаления вариантов с GC < 0,3. В анализ были  включены маркеры, удовлетворяющие следующим критериям: доля пропущенных генотипов < 10%, частота минорного аллеля > 1%, число ошибок Менделевского наследования < 2, p-value точного теста на равновесие Харди–Вайнберга > 1 × 10–10 для контрольных образцов и p-value > 1 × 10–15 — для пациентов с ДФ. Маркеры, являющиеся дупликатными, т. е. маркеры с различными ID, но идентичными геномными позициями и кодировкой аллелей, были детектированы и проанализированы отдельно. Пары дупликатных маркеров с дискордантными генотипами более чем в 10 образцах были полностью удалены из рассмотрения. Из каждой пары дубликатов с 10 отличиями и менее было исключено по одному маркеру с наименьшим показателем доли пропущенных генотипов (genotype missing rate). После применения всех фильтров в анализе осталось 1580746 SNP-маркеров.

На основе метаданных были сформулированы следующие критерии включения в группу пациентов с ДФ: возраст 47 лет и старше; кератопластика не менее, чем на одном глазу, или наличие 2-й или выше степени развития заболевания по модифицированной шкале Krachmer J., манифестировавшего не менее чем на одном глазу.

Критерии включения в группу контроля: возраст 60 лет и старше; нормальное развитие роговицы глаза (без зафиксированных в метаданных аномалий в состояниях эпителия, эндотелия и стромы), за исключением травм роговицы.

Критерии исключения: образцы с ошибками менделевского наследования; образцы с несовпадениями между заявленным полом и полом, установленным на основе генетических данных (по гетерозиготности Х-хромосомы с одновременным  обнаружением вариантов Y-хромосомы по данным PLINK); образцы с отсутствием более 5% генотипов; родственные образцы до второй линии родства включительно (по данным GRAF-rel).

С целью получения генетически однородной выборки в популяционном приближении с использованием GRAF-pop была проведена оценка популяции образцов. Были отфильтрованы образцы, являющиеся выбросами в пространстве генетических координат. Участники исследований были рекрутированы на базе нескольких научных центров, использующих разные критерии включения участников в выборку пациентов с ДФ и в контрольную выборку. Чтобы унифицировать данные критерии, мы дополнительно провели фильтрацию образцов по фенотипическим признакам, руководствуясь единой для всех образцов логикой формирования групп сравнения.

Далее разбиение пациентов на подгруппы с предполагаемым наличием или отсутствием экспансии повторов осуществляли в несколько этапов:

1-й этап: ранжирование и отсечение наиболее значимых вариантов локуса;

2-й этап: кластеризация участников исследования по гаплотипам/комбинациям отобранных вариантов;

3-й этап: проверка соответствия полученного результата доле вероятного носительства экспансии повторов по данным, известным из публикаций. Аллель повторов считали экспансированной, если число повторов составляло более 40 копий, и не экспансированной, если число повторов было менее 40.

Для реализации первого этапа был проведен полногеномный поиск ассоциаций с использованием модели логистической регрессии c добавлением пола и первых шести главных компонент в качестве ковариат. Значения p-value были скорректированы на множественное тестирование методом Бенджамини–Хохберга по FDR. Набор вариантов из 18 хромосомы (где расположен локус с повторами) сначала был отфильтрован по p-value < 1 × 10–15. Для сравнения с гаплотипным подходом из полученного набора вариантов были рассмотрены три SNP с самыми низкими значениями p-value в качестве возможных маркеров увеличенного числа повторов. Затем все варианты локуса были проведены через процедуру прунинга — сокращения числа анализируемых вариантов путем удаления высокоскоррелированных вариантов с попарной корреляцией: r2 > 0,6. Матрица генотипов перед дальнейшим анализом была закодирована в соответствии с доминантной моделью наследования.

На втором этапе использовали предположение, что пациенты с экспансией повторов в гене TCF4 будут обладать определенным набором SNP. Мы ожидали, что образцы ДФ из анализируемого сета сгруппируются в локусе гена TCF4 на основании гаплотипов и комбинаций одиночных вариантов. При этом люди с фенокопией, обусловленной экспансией, на основании сходства комбинаций минорных вариантов попадут в общие кластеры. В эти же кластеры попадут люди из контрольной выборки, которые являются бессимптомными носителями повторов (2–10%), а также небольшая часть контрольной выборки, несущая минорные гаплотипы, не содержащие повторов. При этом комбинации мажорных вариантов и гаплотипы с преимущественно мажорными вариантами сформируют кластеры преимущественно из представителей контрольной выборки. Но сюда попадет и часть пациентов с ДФ с фенокопией без экспансии повторов, и часть пациентов с экспансией, более не сцепленной с минорными гаплотипами (у 7% пациентов с ДФ частично гаплотипы расцепляются с повторами, что ранее было показано для варианта rs613872 [23]). Поэтому доля пациентов с ДФ и участников без ДФ может быть использована как суррогатный маркер носительства повторов в конкретных кластерах.

Для разделения пациентов на группы к выборке был применен метод иерархической агломерационной кластеризации, реализованный в функции hclust пакета stats. Данный алгоритм выстраивает данные в древовидную структуру, последовательно объединяя пары кластеров с наименьшим расстоянием до тех пор, пока все элементы не будут объединены в один кластер.  Алгоритм принимает на вход матрицу попарных расстояний между точками (образцами), на начальном этапе каждая точка представляет отдельный кластер. Из-за неидентичности гаплотипов мы ожидаем больше двух кластеров, а оптимальное их количество определяется метрикой  Silhouette.

Для каждого кластера были определены доли пациентов и контрольных образцов. Кластеры с преобладанием доли пациентов мы считали ассоциированными с экспансией повторов. Дополнительно мы визуализировали входные данные с помощью тепловых карт, отображая распределение образцов в каждом кластере в качестве графических аннотаций.

Для подобранных трех SNP носительство минорного аллеля по группе контролей считали маркером носительства увеличенного числа повторов.

Для подтверждения правильности полученного разбиения было вычислено отношение шансов обнаружить экспансию в группе пациентов с ДФ по сравнению с группой контроля. Для отношения шансов был дополнительно рассчитан 95%-й доверительный интервал.

Для сравнения с экспериментальными данными нами был проведен подбор исследований по следующим критериям.

В исследовании методом фрагментного анализа или ПЦР с праймированием триплетов определяли число повторов в интроне гена TCF4.

Исследовали выборку людей европейского происхождения.

Число исследованных людей в группе больных ДФ или в группе контроля — не менее 50 человек.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

После реализации процедуры контроля качества была сформирована комбинированная рабочая выборка из 3660 образцов европейского происхождения (табл. 1).

После применения всех фильтров в анализе осталось 1 580 746 SNP-маркеров.

Так как GWAS был проведен на тех же наборах данных, что были использованы в исследовании Afshari et al, 2017 [10], его результаты (рис. 1) сопоставимы с результатами, описанными в статье. Коэффициент генетической инфляции составил 1.05, что свидетельствует о незначительном расслоении населения.

Для дальнейшего анализа рассматривали только локус 18-й хромосомы. В результате фильтрации вариантов по значениям p-value осталось 134 варианта, из которых три имеют наиболее низкие значения p-value: rs784257, rs72932578 и rs618869 (и частоты минорных аллелей С, T и С в европейской популяции по данным проекта gnomAD v3.1.2, равны 0,17932, 0,05649 и 0,13451 соответственно) и были дополнительно проанализированы на предмет разделения пациентов на группы.

Размер гаплотипного блока составил 50 вариантов, оставшихся после процедуры прунинга. В результате кластеризации образцы были распределены по 10 подгруппам (рис. 2). Из них в трех подгруппах преобладали образцы пациентов с ДФ, в семи подгруппах преобладали образцы контрольной группы.

Результаты кластеризации показали, что кластеры с преобладанием людей контрольной группы гомогенны по их представленности. Однако три кластера с потенциально увеличенным числом повторов (с преобладанием пациентов с дистрофией Фукса) гетерогенны по гаплотипам, что отражено в неравномерности распределения людей с разными фенотипами в рамках каждого кластера. Это может быть связано как с бессимптомным носительством увеличенного числа повторов в данном локусе, так и с разрешающей способностью популяционных вариантов чипа, недостаточной для аккуратного разделения образцов по повторам разной длины.

Наш анализ показал, что доля людей из кластеров с предположительным носительством экспансированных повторов в группе образцов с ДФ значительно выше, чем в контрольной группе (табл. 2). При этом рассчитанная доля людей с предположительным носительством экспансии повторов сильно варьирует в зависимости от выбора метода — предсказание экспансии по гаплотипам/ комбинациям вариантов  или по генотипам отдельных вариантов с низкими показателями p-value).

Для проверки полученных результатов нами был проведен подбор исследований с результатами экспериментального определения экспансии повторов. Традиционно число повторов определяют каноническим фрагментным анализом или ПЦР с праймированием триплетов с последующим фрагментным анализом. Было подобрано пять публикаций с подходящими выборками (табл. 3).

Для сравнения предсказанной частоты носительства экспансии с частотой носительства экспансии в исследованиях было проведено объединение выборок из публикаций. Сравнительный анализ  показал, что маркеры в разной степени воспроизводят частоту носительства экспансии повторов в группах сравнения (рис. 3).

Ни один из использованных подходов не отражает с достаточной точностью частоту повторов в группе пациентов и контрольной группе по сравнению с результатами прямого типирования из статей (табл. 4). Однако гаплотипный подход превзошел анализируемые одиночные варианты по параметру отношения шансов, перекрывая 95% доверительный интервал выборок двух исследований.

Интересно отметить, что рассмотренные нами одиночные варианты дают сильно дискордантные между собой результаты (рис. 4), т. е. во многом разные люди являются носителями минорных аллелей в данных вариантах, что делает неустойчивой используемую метрику. rs784257 сильнее всего отличается по носительству аллелей от гаплотипного подхода и одновременно является наиболее значимым по результатам GWAS. При этом он показывает максимальное несоответствие по долям потенциального носительства экспансий в группе контроля и не лучшее соответствие с группой ДФ. Скорее всего данный аллель менее сцеплен с носительством повторов, чем два других.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Молекулярно-генетическая классификация пациентов с полигенными заболеваниями является полезным инструментом для изучения генетической природы заболеваний. При этом в рамках одного фенотипа могут существовать пациенты с группами каузальных вариантов, сцепленных с разными гаплотипами. И хотя ген явно связан с заболеванием, p-value вариантов будет выше из-за обилия групп сцепленных вариантов, т. е. изза особенностей генетической структуры заболевания варианты, значимые для каждой из групп в отдельности, не преодолевают общепринятый критерий значимости (p-value < 5 × 10–8 ). К тому же для многих локусов, приближающихся по значимости к общепринятому порогу, характерна заметная разреженность по вариантам в области низких значений p-value, при которой только единичные варианты показывают сильные ассоциации с заболеванием. Таким образом, без дополнительного анализа не представляется возможным выбрать между отнесением геномных вариантов к популяционным выбросам (значимость которых обусловлена случайным популяционным смещением частот) или к потенциально значимой группе вариантов. Поэтому методы структуризации генетических данных, включающие анализ взаимодействий как вариантов в блоках гаплотипов, так и гаплотипных блоков между собой, являются перспективным инструментом для уточнения генетики заболевания.

GWAS позволяет получить больше информации о генетической структуре заболевания, чем исключение вариантов по p-value и формирование локусов с привязкой к ближайшему гену и по сути переходом с уровня «вариант» на уровень «ген». При этом остаются вопросы о неравноценности вклада разных локусов в генетическую природу заболевания у конкретных групп людей с одним фенотипом. Это связано в том числе с отсутствием развитых подходов к формированию комбинаций вариантов, т. е. к работе на промежуточном уровне между уровнями «ген» и «вариант». Из-за неполной сцепленности вариантов между собой целесообразно рассматривать совокупности гаплотипов/комбинаций вариантов, определяющие дифференцированный риск заболевания, а не конкретные рисковые или протективные гаплотипы в отдельности, т. е. вариант с самым высоким популяционным атрибутивным риском (сочетание частоты аллелей и относительного риска), вероятно, и будет самым значимым в локусе.

До сих пор анализ групп гаплотипов, сцепленных с каузальными вариантами, является сложной задачей, однако все чаще превосходит методологию GWAS, даже несмотря на отсутствие высокопроизводительного единого подхода. В 2005 г. в результате GWAS было показано, что ген CFH ассоциирован с возрастной макулодистрофией сетчатки [27]. А позже появилось сообщение, что эта ассоциация не ограничивается одиночными вариантами, и видна в том числе в группах пациентов со структурными перестройками, в частности с частичными делециями генов CFHR1-5 [27]. Более того, было выявлено, что большая часть вариабельности, которую приписывали одиночным вариантам, на самом деле являлась маркером гаплотипов с крупными структурными перестройками в этом регионе. И именно гаплотипные варианты структуры локуса, в том числе с разной популяционной представленностью, уже имеют намного более сильную связь с риском дегенерации сетчатки, чем большинство одиночных вариантов в этом локусе [28].

В данной работе мы реализовали кластеризацию образцов по вариантам региона с экспансией, опираясь на данные об ассоциации с повторами отдельных вариантов [14, 23, 29], в частности, аллеля G варианта rs613872, и гаплотипных блоков [29]. В результате кластеризации образцы из группы пациентов с ДФ и контрольной группы оказались неравномерно распределены по кластерам, что является косвенным свидетельством кластеризации по гаплотипам, сцепленным с экспансией. Все кластеры за исключением одного (кластера № 3), обладали однозначным статусом. Неопределенность при выявлении статуса была обусловлена равным соотношением в кластере долей пациентов и лиц контроля. В дальнейшем предстоит принять решение, что делать с такими кластерами — перекластеризовать людей из них отдельно или оставлять с неопределенным статусом. Необходимо также подобрать другую метрику качества кластеризации, а для этого нужны дополнительные данные, содержащие одновременно и результаты генотипирования образцов, и информацию о длине повторов. Несмотря на данные ограничения, результаты, полученные с использованием гаплотипного подхода, превзошли результаты, показанные одиночными вариантами, однако оказались недостаточно точными, чтобы считать использованную нами реализацию оптимальной.

Данная работа позволила реализовать две цели.

  1. Первичное тестирование подхода, позволяющего на промежуточном уровне (не уровне одиночного варианта и не уровне гена, ближайшего к локусу) выполнить стратификацию пациентов и групп контроля без предварительного понимания структуры гаплотипов локуса. В качестве меры использована доля пациентов с ДФ и контрольных образцов в кластерах, что позволяет использовать данный подход для заболеваний, у которых заведомо неизвестна ориентировочная доля людей с фенотипом, тесно связанная с данным локусом или обусловленная изменениями в нем.
  2. Получить подвыборку пациентов с ДФ без носительства экспансии для прицельного переанализа GWAS с целью прояснения генетической структуры именно этой категории пациентов.

В будущем, кластеризация пациентов позволит не только выделять группы внутри фенотипа с сильным генетическим вкладом отдельных генетических вариантов, в том числе структурных, но и предлагать их обоснование и подходы к предсказанию ответа пациентов к разным видам терапии.

ВЫВОДЫ

В данном исследовании была продемонстрирована возможность применения подхода, основанного на гаплотипах, к молекулярно-генетической классификации пациентов по причинам генетического заболевания, в данном случае, по наличию экспансии повторов. Результаты работы позволили нам сформулировать следующие выводы: 1) гаплотипный подход лучше, чем отдельные варианты, подходит для выявления связи локусов с отдельными группами пациентов; 2) для получения более точной картины следует пересмотреть подход к определению гаплотипного состава и моделированию матрицы данных для кластеризации. В частности планируется проанализировать ряд методов по вычислению генетического сходства (генетических расстояний) между образцами, а также применить более специфичные методы для начального отбора вариантов; 3) полученные результаты указывают на то, что кластеризация разделяет пациентов с ДФ и группу контроля с учетом групп гаплотипов/комбинаций вариантов, ассоциированных с экспансией повторов. Для дальнейших этапов тестирования подхода необходима дополнительная доказательная база, требующая подключения большего объема валидационных данных.

КОММЕНТАРИИ (0)