ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ

Распространение вариантов с частыми мутациями в гене капсидного белка N в российских изолятах SARS-CoV-2

С. А. Кирьянов, Т. А. Левина, М. Ю. Кириллов
Информация об авторах

ООО «ДНК-Технология», Москва, Россия

Для корреспонденции: Сергей Альбертович Кирьянов
а/я 181, г. Москва, 117587; ur.ygolonhcet-and@vonayrik

Информация о статье

Вклад авторов: авторы внесли равный вклад в написание статьи.

Статья получена: 26.06.2020 Статья принята к печати: 10.07.2020 Опубликовано online: 28.07.2020
|

Характерной особенностью пандемии COVID-19 является быстрое распространение вируса во многих (более 187) странах мира [1]. Выявлены значительные различия в распространенности, уровне смертности и тяжести заболевания между географическими регионами, странами, а также среди возрастных групп инфицированных [24].
Обнаруженные различия можно объяснить тем, что геном SARS-CoV-2 эволюционирует и дифференцируется по географическому признаку (благодаря введению режима изоляции и физического дистанцирования) c образованием нескольких типов от исходного типа из г. Ухань (провинция Хубэй, КНР) [5, 6]. Известно, что РНК- вирусы легко накапливают мутации. В случае возникновения неадаптивных мутаций вирусы элиминируются. При наличии адаптивных мутаций можно ожидать, что вирус получит селективное преимущество, а это, как правило, проявляется в высокой частоте указанных мутаций и, соответственно, в более высокой трансмиссивности вируса.
Быстрое распространение SARS-CoV-2 в мире вызывает вопрос о том, обусловлена ли его эволюция драйверными адаптивными мутациями и если да, то в каких генах.
Размер генома коронавируса составляет около 29 900 нуклеотидов. Геном SARS-CoV-2 кодирует протяженный полипротеин репликативного комплекса ORF1ab и четыре структурных белка: мембранный (M), поверхностный гликопротеин (S), оболочечный (E) и нуклеокапсидный фосфопротеин (N), как и у других β-коронавирусов [7].

Геном SARS-CoV-2 интенсивно исследуют, как в целях диагностики и анализа патогенности этого вируса, так и в целях отслеживания его эволюции. В настоящее время в базе данных GISAID находится более 25 000 последовательностей вируса, выделенных в нескольких десятках стран. Ранее эволюционные изменения генома вируса SARS-CoV-2 прослеживали по паттернам мутаций в генах ORF1ab, гликопротеина S и неструктурных протеинов nsp6 и nsp8 [810]. Так, высокая частота мутаций C241T, C3037T и C14408T в гене ORF1ab, кодирующем белки репликативного комплекса, и мутации A23403G в гене S, продукты которого взаимодействуют с рецептором ACE2, были обнаружены в изолятах вируса SARS-CoV-2 из стран Западной Европы, где заболевание COVID-19 протекает более тяжело, чем в других географических регионах [11]. В совокупности указанные комутации, определяющие клад 20А (ранее известный как клад G), по-видимому, обусловливают повышенную трансмиссивность вируса и его доминирование в Европе.

Интерпретация данных по эволюции генома SARS-CoV-2 остается неполной, поскольку существующие публикации по-прежнему охватывают преимущественно изоляты, представленные в США, странах Европы, КНР, и некоторых других странах. В частности, недостаточно информации о мутационных профилях геномов изолятов SARS-CoV-2 российского происхождения, изучение которых особенно актуально в связи с контрастирующими друг с другом высоким ростом инфицирования и невысокой смертностью.

Целью исследования было провести мутационный и филогенетический анализы геномов SARS-CoV-2 из России в разные периоды и в разных регионах, а также охарактеризовать мутационные профили изолятов, используя подходы биоинформатики.

МАТЕРИАЛЫ И МЕТОДЫ

В период с 1 марта по 29 апреля 2020 г. с использованием баз данных NCBI и GISAID было отобрано 86 нуклеотидных последовательностей SARS-CoV-2 из России и 220 из Европы и США. Критерии включения: длина полноразмерной последовательности 26 000–30 000 п.н., последовательности аннотированы как SARS-CoV-2.

Критерии исключения: повторно представленные последовательности, последовательности со слишком большим числом неопределенных нуклеотидов. Для выравнивания множественных последовательностей применяли программы Clustal Omega (EMBL-EBI; Великобритания) и Blast (NCBI; США). В качестве последовательности сравнения для анализа последовательностей, выделенных у пациентов из России, выбрали MT233519, SARS-CoV-2/human/ESP/Valencia5/2020.

Для филогенетического анализа последовательностей SARS-CoV-2, временного датирования предковых узлов, реконструкции дискретных признаков, частоты и датирования появления анкорных специфических мутаций на филогенетических ответвлениях использовали программу https://nextstrain.org/ [12].

Предсказание B-клеточных эпитопов проводили по результатам анализа и в соответствии с ранее предложенным группой исследователей для SARS-CoV алгоритмом [13]. Для предсказания потенциальных В-клеточных эпитопов в первичной аминокислотной последовательности фосфопротеинa N применяли следующие инструменты прогнозирования: для линейных В-клеточных эпитопов программу BepiPred-2.0 (DTU; Дания) [14], для конформационных эпитопов — программу DiscoTope 2.0 (DTU; Дания) [15], предоставляемые сервером с базой данных эпитопов IEDB Immunobrowser (NIAID; США).

Потенциальные линейные В-клеточные эпитопы были предсказаны с использованием программы BepiPred-2.0 (DTU; Дания) [14] при максимальном пороговом значении 0,75, что соответствовало специфичности выше 0,85 и чувствительности ниже 0,40 (с учетом последовательностей, содержащих более семи аминокислотных остатков). Прогнозирование конформационных эпитопов проводили с использованием программы DiscoTope 2.0 (DTU; Дания) [15], применив ограничение позитивности выше –3,7, что соответствовало специфичности больше или равной 0,75 и чувствительности ниже 0,40.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

В рамках исследования было проанализировано 86 полногеномных последовательностей SARS-CoV-2, выделенных у российских пациентов в марте-апреле 2020 г. Из них 38 изолятов (44%) получили в марте и 56 (56%) — до конца апреля 2020 г. Нуклеотидные последовательности генома вируса подвергли выравниванию и сравнили с последовательностями SARS-CoV-2 от 220 европейских и американских пациентов, случайным образом отобранных из базы данных GISAID. Филогенетический анализ выбранных нуклеотидных последовательностей российского и европейского происхождения показал, что все российские изоляты, за исключением одного, принадлежали к кладу 20А, который ранее классифицировали как G (рис. 1).

Все остальные последовательности, кроме одного выделенного в марте образца из Кабардино-Балкарии, содержали мутацию A23403G с заменой D614G в гене гликопротеина S, мутацию C14408T с заменой P314L в гене белка ORF1b, а также синонимичные мутации C241T и C3037T. В Европе указанные мутации ранее обнаружили в изоляте из Германии (Germany/BavPat1/2020), а затем в изолятах из Италии, выделенных в феврале. По-видимому, все перечисленные мутации образуют эволюционно стабильный гаплотип, который сейчас доминирует в европейских изолятах, изолятах с восточного побережья США, a также изолятах российского происхождения.

По наличию или отсутствию тройной мутации G28881A, G28882A и G28883C в гене N, вызывающей двойную несинонимичную мутацию R203K и G204R, последовательности геномов SARS-CoV-2 изолятов из России можно разделить на две неравные группы, из 59 и 26 последовательностей соответственно. Филогенетический анализ изолятов из России, Европы и США показал, что двойная мутация R203K и G204R, ранее обнаруженная в изоляте из Валенсии, Испания (MT233522, 2 марта 2020 г.), также образует отдельный субклад 20B (рис. 1). Следует отметить, что в отличие от российских изолятов большинство европейских и американских изолятов образует субклады без тройной мутации G28881A, G28882A и G28883C.

Субклад российских изолятов с двойной характеристической мутацией R203K и G204R делится на три неравные группы. Наиболее многочисленной является группа АР1, содержащая более 40 изолятов, выделенных преимущественно в Санкт-Петербурге и, по-видимому, имеющих итальянское происхождение. Указанная группа дивергировала от предшественника, ее определяет синонимичная мутация C26750Т в гене М, специфичная только для рассмотренных российских изолятов. Время появления данной мутации — не позднее начала марта. Для этой группы также характерен эффект микроклональности, определяемый накоплением преимущественно синонимичных мутаций в 5’-области гена ORF1ab, которые делят варианты геномов на дополнительные субпопуляции. Сведения о выделенных подгруппах и мутациях представлены в табл. 1.

Группу AP2 (шесть изолятов из Москвы и два из Якутии) определили мутации в гене ORF1a (G3278S, T1246I, L3606F) и синонимичная мутация C23731T в гене S. Подгруппа из четырех изолятов из Москвы и Якутии впоследствии дивергировала с накоплением мутации A364S и дополнительной мутации M1499I в гене ORF1ab. Последняя мутация специфична только для изолятов российского происхождения, она появилась не позднее середины марта.

В еще одной группе изолятов АР3 (шесть изолятов из Москвы, Липецка и Краснодара) итальянского происхождения есть характерная мутация T175M в гене M. Изоляты различаются также по дальнейшему мутированию гена ORF1ab (мутации P892S, I1887V). В наименее представленной группе из трех изолятов (Москва) присутствует дополнительная мутация A152S в гене N, выявленная не позднее середины марта.

В группе из 26 изолятов без двойной мутации R203K и G204R в гене N накопление мутаций также происходит в основном в гене ORF1ab. Наиболее часто встречающейся дифференцирующей мутацией является синонимичная мутация в позиции A20268G испанского происхождения (обнаружена в 16 изолятах, преимущественно из Санкт- Петербурга). Наличие несинонимичных мутаций в гене ORF1ab (T265I, P3395L и др.), а также в генах ORF3a (Q57H) и М (D3G) позволило выделить несколько подгрупп с незначительным числом изолятов (4–6). Происхождение указанных изолятов и дополнительные мутации представлены в табл. 1. Только в трех изолятах из 26 обнаружили дополнительные несинонимичные мутации в гене N: двойную мутацию N140K и T205I, а также N140Т и A397V.
Таким образом, независимо от происхождения варианты SARS-CoV-2 с двойной мутацией R203K и G204R в гене N доминируют в разных регионах России.

Для определения времени появления и распространения двойной мутации R203K и G204R был проведен анализ наиболее представленных геномов вируса, полученных у пациентов из Москвы и Санкт-Петербурга в марте-апреле 2020 г., которые классифицировали в соответствии с датами выделения образцов (указанными в базе данных GISAID). Четыре временные подгруппы выделили следующим образом: 10–12 марта 2020 г. (геномы от восьми пациентов), 19–21 марта 2020 г. (геномы от девяти пациентов), 1–3 апреля 2020 г. (геномы от 16 пациентов), 10–12 апреля 2020 г. (геномы от 29 пациентов). Число других накапливаемых мутаций (в основном в гене ORF1ab) менялось в течение каждого временного периода: 2, 4 и 4 в группе с двойной мутацией R203K и G204R, и 2, 3 и 3 в группе геномов без такой мутации. При этом в последних присутствовали мутации в гене N: двойная мутация N140K и T205I, а также N140Т. Дивергенция других генов не влияла на распространение вариантов с двойной мутацией R203K и G204R в гене N. В конце марта — начале апреля доля изолятов с двойной мутацией R203K и G204R выросла более чем в два раза и к середине апреля составила более 69,5% (рис. 2).

Были проверены общее распределение и представленность мутаций в гене N в нуклеотидных последовательностях изолятoв из Европы и США, размещенных в базах данных GISAID и NCBI. Интересно, что в европейских популяциях представленность геномов субклада с двойной мутацией R203K и G204R в гене N оказалась существенно ниже, чем в России, и составила 32,6% (1068 геномов против 3241 без этой мутации). В США доля геномов того же субклада еще ниже, она составляет 13,3% (464 генома против 3479). Распределение несинонимичных мутаций в гене N оказалось неравномерным: 58,7% мутаций были локализованы на участке гена N179-217. С помощью алгоритмов предсказания для линейных В-клеточных эпитопов в протеине N предсказали два варианта возможных линейных В-клеточных эпитопов с максимальным пороговым значением > 0,758, в позициях 23–36 и 178–207 соответственно (табл. 2). Конформационные В-клеточные эпитопы в гене N с пороговым значением > –0,37 и специфичностью 0,75 были предсказаны с использованием соответствующего алгоритма примерно в тех же позициях (26–36 и 193–207), включая фланкирующие R203, G204 и T205 (данные не представлены). Однако c учетом критерия специфичности (0,75) oколо 25% аминокислотных остатков могут быть предсказаны как часть В-клеточнoгo эпитопа невeрно.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

По имеющимся данным, геном SARS-CoV-2 эволюционирует с образованием нескольких типов, кластеризующихся в отдельные географически обусловленные группы [16]. Мутационный анализ географически обусловленных изолятов позволяет получить представление о наиболее частых адаптивных мутациях, обеспечивающих высокую трансмиссивность вируса. Ранее было обнаружено, что не менее пяти основных мутаций (C241T, C3037T, T28144C, C14408T, A23403G) оказались наиболее представленными в изолятах вируса SARS-CoV-2 из Западной Европы [11]. Указанные комутации, определяющие клад 20А, по-видимому обеспечивают повышенную трансмиссивность вируса и его доминирование в Европе. По результатам мутационного и филогенетического анализов геномов SARS-CoV-2, обнаруженных в России в марте-апреле 2020 г., наиболее распространенным также оказался клад 20А, что указывает на европейское происхождение российских изолятов. Однако в России, в отличие от Западной Европы, распространился и доминирует субклад 20B с тройной мутацией G28881A, G28882A и G28883C, вызывающей двойную замену R203K и G204R в гене протеина N. Так, в России в конце апреля представленность геномов с двойной мутацией R203K и G204R составила более 69,5%, тогда как в Европе — 32,6%. В США число геномов того же субклада с мутациями R203K и G204R было еще ниже, их доля достигла 13,3%. Предположительно, указанный вариант появился в России в начале-середине марта 2020 г. Его дальнейшее распространение сопровождалось формированием новых подтипов с накоплением характерных мутаций в гене М (С26750Т) или ORF1b (M1499I или G17964T) и последующей дивергенцией за счет новых единичных (в основном синонимичных) мутаций в гене ORF1аb. Быстрое мутирование варианта с двойной мутацией R203K и G204R в гене N, по-видимому, отражает его способность к адаптации и повышению трансмиссивности, а не модуляции вирулентности.

Пока возможный функциональный эффект внедрения мутантнoгo мотива AAACGA в ген нуклеокапсида неизвестен. Белок N отвечает за образование спирального нуклеокапсида в ходе сборки вириона и играет ключевую роль в его репликации и транскрипции. Он может вызывать иммунный ответ и быть потенциальной мишенью при разработке вакцин [17]. Ранее сообщали о локализации потенциальных B-клеточных и T-клеточных эпитопов в гликопротеине S, мембранном М и капсидном фосфопротеине N, предсказанных по гомологичным участкам в геноме коронавируса SARS-CoV [18]. Предпринятая нами попытка картирования предсказанного пептидa В-клеточного эпитопа N179–207 аминокислотнoй последовательности генa N допускаeт возможность того, что позиции R203 и G204 располагаются в пределaх эпитопа. В результате мутаций R203K и G204R возникают два сильных положительно заряженных аминокислотных остатка в близких положениях, в отличие от только одного положительно заряженного остатка в немутантном генотипе, что, возможно, способствует снижению конформационной энтропии по сравнению с исходным генотипом. В настоящий момент биоинформационные подходы в отсутствие экспериментальных данных не позволяют оценить биологическую значимость этих мутаций. Кроме того, нет оснований связывать распространенность данных мутаций вируса SARS-CoV-2 в России и его патогенность. Дальнейшее изучение эволюции генома вируса SARS-CoV-2 позволит не только реконструировать текущие эпидемиологические процессы, но и оптимизировать существующие ПЦР-РВ-диагностические тест-системы и осуществить поиск новых мишеней для разработки вакцин.

ВЫВОДЫ

Полученные данные свидетельствуют о том, что подавляющее большинство российских изолятов SARS-CoV-2 имеет европейское происхождение. Вирусный геном значительной части российских изолятов SARS-CoV-2 эволюционирует с накоплением новых мутаций, способствующих повышению трансмиссивности вируса. Накопление двойной мутации R203K и G204R в гене N в изолятах российского происхождения привело к быстрой популяционной экспансии данного варианта и его доминированию в России.
Выявление характерных вариантов геномов вируса SARS-CoV-2 в России дает представление о его дальнейшей адаптивной эволюции. Данные о специфичных мутационных паттернах генома SARS-CoV-2, в том числе в генах структурных белков N и M, могут быть использованы для выявления SARS-CoV-2, отслеживания и контроля его распространенности.

КОММЕНТАРИИ (0)