ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Поиск и анализ CRISPR-Cas системы в штамме Escherichia coli HS и детектируемых спейсерами его CRISPR-кассеты фаговых рас методами биоинформатики
1 Научный центр проблем здоровья семьи и репродукции человека, Иркутск
2 Институт биомедицинских технологии, Иркутский государственный медицинский университет, Иркутск
Для корреспонденции: Елена Иннокентьевна Иванова
ул. Тимирязева, д. 16, г. Иркутск, 664003; moc.liamg@mei.avonavi
Escherichia coli — это вид, состоящий из многих биотипов. Представители некоторых из них являются комменсальными колонизаторами кишечного биотопа млекопитающих (в том числе человека), другие вызывают различные типы заболеваний. Среди патогенных возбудителей кишечных инфекций, важную роль играет энтерогеморрагическая кишечная палочка Escherichia coli O157:H7, а среди комменсальных выделяются представители биотипа E. coli HS. Вызванная штаммами E. coli O157:H7 инфекция может привести к развитию гемолитико-уремического синдрома (ГУС) с формированием почечной недостаточности. E. coli O157:H7 — это один из серотипов, способных продуцировать шига-токсины [1–3]. Лечения с доказанной эффективностью не существует, и во время острой фазы заболевания рекомендуется исключительно поддерживающая терапия. Полного согласия по вопросу о необходимости применения антибиотиков для лечения инфекции, вызванной шига-токсин-продуцирующими E. coli (Stx-E. coli), до сих пор не достигнуто [4, 5]. Показано, что антибиотикотерапия на стадии гастроинтестинальной инфекции Stx-E. coli повышает (приблизительно в 17 раз) риск развития развернутой картины ГУС [6]. Был сделан вывод о том, что повреждение мембраны бактерий, индуцируемое антибиотиками, может способствовать развитию острой стадии заболевания из-за выделения токсина в больших количествах [7].
В связи с этим необходима разработка альтернативных антибиотикам подходов борьбы с бактериальными патогенами, среди которых вновь становится актуальной фаговая терапия [8–10]. Для развития этого направления необходимы фундаментальные знания генетической природы взаимоотношений между бактериями и фагами, что требует наличия у исследователя их геномных структур и новых методов их анализа. На сегодняшний день уже применяются компьютерные программные методы биоинформатики, позволяющие оперировать большими массивами геномных данных и получать новую информацию о генетической природе бактерий [11].
Кроме развития методов биоинформатики значительным событием за последние несколько лет стало открытие специфической адаптивной защитной системы у прокариот. Длительное время считалось, что бактерии беззащитны в отношении бактериофагов, но еще в 1987 г. в геноме E. coli был обнаружен странный участок, состоящий из многочисленных повторов [12]. Лишь в 2005 г. стало известно, что разделяющие эти повторы промежуточные последовательности зачастую бывают идентичными последовательностям, найденным в геномах бактериофагов и плазмид [13, 14]. Обнаруженная структура, называемая CRISPR-Cas (Clustered Regularly Interspaced Short Palindromic Repeats — CRISPR-associated proteins, или короткие палиндромные повторы, регулярно расположенные группами с CRISPR-ассоциированными белками), является специфической адаптивной защитной системой бактерий и архей от чужеродного генетического материала (в большинстве случаев от фагов и плазмид) [15–18]. CRISPR-кассеты представляют собой набор палиндромных повторов длиной 21–47 пар нуклеотидов (п.н.), разделенных уникальными спейсерными сайтами. Спейсеры комплементарно соответствуют участкам генов фагов и плазмид, к которым бактерия демонстрирует устойчивость [13]. В непосредственной близости от CRISPR-локуса находятся cas-гены, продукты которых обеспечивают функционирование CRISPR-локусов. На сегодняшний день выделяют 3 типа CRISPR-Cas систем, различающихся по механизму действия и cas-генам, представленным в геноме [19].
Использование методов биоинформатики позволяет обнаруживать и определять CRISPR-Cas системы в геномах бактерий [20, 21]. Так, тестирование фаговых рас через структуры спейсеров с помощью биоинформационных программных методов помогает в короткие сроки определить степень устойчивости бактерий к специфичным фагам и плазмидам [22–24]. Исследования в этом направлении крайне актуальны как для решения практических задач терапии инфекционных заболеваний, так и для изучения внутривидовых и межвидовых эволюционных процессов у бактерий [17, 22]. Однако для многих видов бактерий механизм взаимоотношений между бактериями и фагами посредством их CRISPR-Cas систем и анти-CRISPR-Cas систем соответственно остается совершенно неизученным. Поэтому на первом этапе исследований необходима разработка эффективного алгоритма биоинформационных методов поиска и анализа локусов и структур CRISPR-Cas систем в геномах бактерий и последующего скрининга фаговых рас, тестируемых через их CRISPR-кассеты. Исходя из этого, целью данной работы был поиск и исследование сайтов CRISPR-Cas систем в геноме Escherichia coli HS и последующий скрининг фаговых рас через CRISPR-кассеты бактерий посредством разработанного алгоритма поисковых методов биоинформатики.
МАТЕРИАЛЫ И МЕТОДЫ
Объектом исследования послужил штамм Escherichia coli HS, два генома которого представлены в базе данных GenBank (№ NC_009800.1, секвенирован в 2017 г. и № CP000802, секвенирован в 2014 г.). Штамм E. coli HS, представленный геномом в базе данных GenBank под № NC_009800.1, был культивирован из эталонного штамма коллекции Центра разработки вакцин (США) [25]. Для поиска CRISPR-Cas систем нами была использована последовательность генома эталонного штамма под № CP000802 [26]. Данный штамм был выделен от здорового человека, желудочно-кишечный тракт которого был колонизирован этим штаммом без каких-либо видимых клинических симптомов [25].
Для поиска сайтов CRISPR-Cas систем использовали методы программного моделирования MacSyFinder (Macromolecular System Finder, ver. 1.0.2.) [27]. Программа основана на поиске через белковый профиль геномных последовательностей, закодированных как скрытые марковские модели (СММ), которые доступны в базах данных: PFAM, TIGRFAM или PRODOM. Поиск точной гомологии последовательностей осуществляли при помощи установленных вспомогательных пакетов makeblastdb (ver. 2.2.28) и HMMER (ver. 3.0), а также выявлении структурных и функциональных характеристик обнаруженных cas-генов каждого анализируемого генома [28]. Визуализацию полученных результатов в MacSyFinder осуществляли через веб-интерфейс MacSyView. В качестве языка программирования использовали Python (ver. 2.7) [29]. Поиск расшифровки CRISPR-кассет производили при помощи онлайн-приложения «CRISPI: a CRISP RInteractive database» на Gen Ouest BioInformatics Platform (http://genouest.org/). Геномы бактерий и архей в приложении загружены из NCBI FTP Server и обработаны в программах C и Java (ver. 1.5.0.12.) [30]. Метод обнаружения данного приложения был основан на ограничении числа максимальных совпадений. Во избежание детекции ошибочных структур фактический минимальный процент идентичности, необходимый для обнаружения, был фиксирован и составлял 60%. Работу веб-страницы осуществляли с помощью PHP (ver. 4.3.9), Java (ver. 1.5.0.12). Идентифицировали фаги по расшифрованным спейсерным последовательностям с помощью алгоритма поиска BLASTn по базе данных GenBank-Phage [31]. Были использованы онлайн-приложения: CRISPRTarget (http://bioanalysis.otago.ac.nz/CRISPRTarget/crispr_analysis.html), Mycobacteriophage Database (http://phagesdb.org/blast/).
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
В результате поиска в геноме штамма E. coli HS (№ CP000802) был выявлен локус одной CRISPR-Cas системы в позициях 2920652-2921839 нуклеотидных оснований (н.о.), т. е. его размер составлял 1187 н.о. По структуре эта CRISPR-Cas система была отнесена к типу CAS-Type-ІЕ.
При помощи программы MacSyFinder были обнаружены и визуализированы участки генома E. coli HS — гены, кодирующие Сas-белки: – обязательные (mandatory), присутствие которых в геноме указывает на наличие CRISPR-Сas системы (рис. 1); – дополнительные (accessory), соответствующие генам, которые могут быть найдены в нескольких системах и которые трудно идентифицировать с помощью одного профиля белка, но также указывающие на наличие CRISPR-Сas системы у бактерии.
При помощи MacSyFinder удалось не только обнаружить сas-гены в CRISPR-Cas системе анализируемого генома E. coli HS, но и визуализировать полученную информацию XML через MacSyView. Пример обнаруженных сas-генов и их расположение в геноме данного штамма представлен на рис. 1.
При помощи программных пакетов HMMER (ver. 3.0) и makeblastdb (ver. 2.2.28) у обнаруженных сas-генов в каждом анализируемом геноме, были получены структурные и функциональные характеристики: gene (профиль), system (cистема, к которой принадлежит ген), hitid (идентификатор), hit seq length (длина последовательности совпадения), replicon name (имя репликона), position hit (позиция во входном файле), i-eval ("независимый Evalue"), score (оценка hit), profile coverage (процент профиля, который соответствует последовательности hit), sequence coverage (процент от последовательности hit, который соответствует профилю), begin match (начало совпадения с профилем в последовательности), end match (конец совпадения с профилем в последовательности) (рис. 2).
Расшифровку структур CRISPR-кассет осуществляли в режиме реального времени при помощи онлайн- приложения «CRISPI: a CRISPR Interactive database», основанного главным образом на гомологии повторяющихся участков. В результате в CRISPR- кассете исследуемого штамма было идентифицировано 11 повторяющихся (repeat) последовательностей, консенсусная схема которых представлена на рис. 3. После обнаружения повторов в приложении «CRISPI: a CRISPR Interactive database» удалось расшифровать в CRISPR-кассете 10 «спейсерных» (spacer) структур (табл. 1). При помощи Java были визуализированы CRISPR-кассета и сas-гены в геноме бактерии (рис. 4).
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
В прошлом году в базе данных GenBank был задокументирован геном штамма Escherichia coli HS (№ NC_009800.1) и появилась информация о наличии в его геноме трех локусов CRISPR-Cas систем. В базе данных CRISPR-Cas систем (http://crispr.i2bc.paris- saclay.fr/crispr/) эти локусы представлены в нескольких вариантах. Структуры CRISPR-кассеты, полученные в нашем исследовании генома штамма E. coli HS (№ CP000802, секвенирован в 2014 г.) в основном совпадали со структурами штамма E. coli HS (вариант NC_009800_6, секвенирован в 2017 г.).
В ходе работы была проведена идентификация фагов по расшифрованным спейсерным последовательностям, выявленным в CRISPR-кассете этого штамма (табл. 2). Из 10 спейсерных последовательностей только 4 спейсера (1, 5, 7, 10) комплементарно связались с протоспейсерными структурами фаговых рас, представленными в данной таблице. Выявленные фаговые расы характерны для широкого круга разнообразых бактериальных хозяев. Возможно, это следствие горизонтального переноса CRISPR-Cas систем между типами бактерий за длительный период формирования и развития у них «адаптивной иммунной системы». Необходимы дальнейшие исследования, в ходе которых будут получены новые фундаментальные знания о природе антагонистических взаимоотношений между бактериями и фагами. По детектируемым фаговым расам можно судить о степени защищенности и живучести бактерий в период эволюционного развития.
ВЫВОДЫ
Проведенные поиск и анализ расшифрованной структуры CRISPR-кассеты в геноме штамма E. coli HS (№ CP000802, секвенирован в 2014 г.) позволяют считать используемые биоинформационные программные методы поиска структур CRISPR-Cas систем в расшифрованных геномах бактерий весьма эффективными, а результаты высоко информативными. Наличие Сas-белков, относящихся к категории mandatory, свидетельствует о высокой антифаговой активности CRISPR-Cas системы изученного штамма. Количество выявленных спейсеров свидетельствует о длительности его эволюционной истории. Сравнительный анализ структур спейсеров в двух CRISPR-кассетах, выявленных в геноме штамма E. coli HS (№ CP000802, секвенированного в 2014 г. и № NC_009800.1, секвенированного в 2017 г.), показывает, что количество спейсеров в CRISPR- кассете генома штамма № NC_009800.1 увеличилось до 19. При этом количество спейсеров в геноме штамма № CP000802 равно всего 10. Можно предположить, что такое увеличение количества спейсеров стало возможным за счет их накопления в процессах частого пассирования этого штамма либо вследствие большого числа случаев его контаминации фагами. В любом случае оно может свидетельствовать о высокой активности CRISPR-Cas системы штамма E. coli HS.