МЕТОД

Особенности подготовки библиотек для метагеномного секвенирования образцов на платформе Illumina

Информация об авторах

1 ООО «Генотек», Москва

2 Московская гимназия на Юго-западе № 1543, Москва

Для корреспонденции: Красненко Анна Юрьевна
Наставнический пер., 17, стр. 1, подъезд 14, г. Москва, 105120; moc.liamg@oknensarkanna

Информация о статье

Благодарности: авторы благодарят Дарью Плахину и Ивана Стеценка из ООО «Генотек» за помощь в работе, а также Сергея Глаголева из Московской гимназии на Юго-Западе № 1543 — за ценные советы и замечания.

Вклад авторов в работу: А. Ю. Красненко, А. Ю. Елисеев — анализ литературы, планирование и выполнение исследования, анализ и интерпретация данных; Д. И. Борисевич, К. Ю. Цуканов — биоинформатический анализ данных; А. И. Давыдова — подготовка черновика рукописи; В. В. Ильинский — планирование исследования, научный руководитель. Все авторы принимали участие во внесении исправлений в текст рукописи.

Статья получена: 12.04.2017 Статья принята к печати: 24.04.2017 Опубликовано online: 31.05.2017
|

В человеческом организме существует несколько бактериальных сообществ: в ротовой полости, кишечнике, урогенитальном тракте и т. д. Совокупность микроорганизмов, находящихся в симбиозе с организмом-хозяином, называют микробиомом [1]. Изучение микробиомов человека позволяет узнать, какие бактерии живут в нашем организме в норме и при развитии различных заболеваний [2].

В настоящее время для исследования микробиома используется  секвенирование регионов геномов бактерий, по которым можно установить родовую и иногда видовую принадлежность микроорганизмов — метагеномное секвенирование маркерных генов, или метагеномное секвенирование [3]. Одними из наиболее удобных регионов для секвенирования являются участки гена 16S рибосомальной РНК (16S рРНК). Это связано с высокой консервативностью указанного гена в геномах всех прокариот, что делает возможным подбор универсальных праймеров для амплификации интересующих участков и уменьшение стоимости и времени исследования [4, 5]. В гене 16S рРНК можно выделить консервативные и вариабельные участки. Последние содержат однонуклеотидные замены, по которым можно определить видовую и/или родовую принадлежность микроорганизма путем сравнения обнаруженных в результате секвенирования замен с базой данных, составленной и обновляемой по литературным источникам.  

Одним из основных этапов метагеномного секвенирования является подготовка образца для исследования, т. е. превращение исходного материала — нуклеиновой кислоты — в стандартную библиотеку фрагментов ДНК, подходящую для загрузки в секвенатор. При этом необходимо учитывать, что существует большое количество различных платформ секвенирования, и, хотя стратегии пробоподготовки во многом схожи, есть нюансы, обусловленные способом детекции сигнала в процессе секвенирования [6]. Основным шагом при подготовке образца является получение специфических фрагментов, в дальнейшем позволяющих определить видовую и/или родовую принадлежность микроорганизма. Чтобы получить точный результат методом метагеномного секвенирования, важно правильно подобрать праймеры, необходимые для наработки специфических ампликонов с помощью полимеразной цепной реакции (ПЦР) [7, 8]. В 2013 г. Klindworth и соавт. составили 512 пар праймеров, которые были разделены на несколько групп по типу технологии высокопроизводительного секвенирования (next generation sequencing, NGS): первая группа — для технологий Illumina и Ion Torrent (самые короткие продукты амплификации), вторая — для технологии 454 Life Science (средние по размеру продукты амплификации), третья — для технологий PacBio и др. и для создания колониальных библиотек (самые длинные продукты амплификации) [9]. В результате для каждой группы были найдены несколько пар праймеров для архей и бактерий, которые являются универсальными для дифференцировки разных родов и видов.

В статье мы рассматриваем особенности метагеномного секвенирования образцов на платформе Illumina, в первую очередь уделяя внимание подготовке библиотек для секвенирования, имеющей в случае с Illumina ряд особенностей [10]. Дело в том, что  все процессы секвенирования на этой платформе проходят в проточной ячейке, покрытой одноцепочечными нуклеотидами, комплементарными последовательности адаптера, прикрепляемого во время приготовления библиотек. Прикрепленные к проточной ячейки фрагменты удлиняются при помощи ПЦР, при этом полимераза начинает работать только в том случае, когда свободный конец связанного фрагмента гибридизуется с комплементарным олигонуклеотидом на поверхности ячейки. Вследствие этого происходит рост числа копий единичной молекулы в определенной части ячейки. Образуются миллионы кластеров, каждый из которых представляет собой скопление определенного фрагмента. После этого происходит распознавание последовательности: построение комплементарной цепи с использованием меченых нуклеотидов и снятие сигнала после каждого шага удлинения. Описанная технология определяет особенности  подготовки образцов к секвенированию, которые и были учтены в работе.

Подготовка библиотек для секвенирования на платформе Illumina

Образцы для исследования могут представлять собой биологический материал различных типов: слюна, ушная сера, соскоб со слизистой оболочки полости носа и т. д. В статье мы детально рассматриваем общий подход подготовки библиотек для секвенирования на платформе Illumina независимо от исследуемого образца. Описываемый подход включает несколько этапов: 1) выделение тотальной ДНК из образца; 2) определение участков для секвенирования и подбор праймеров для дальнейшей амплификации с помощью ПЦР (на этом этапе особое внимание уделяется качеству ПЦР, от которого зависит качество последующего секвенирования); 3) двойное баркодирование полученных библиотек для секвенирования; 4) секвенирование; 5) биоинформатический анализ полученных данных.

Существует большое количество протоколов и наборов реагентов для эффективного выделения тотальной ДНК [11] в зависимости от типа образца, поэтому мы не будем подробно останавливаться на обсуждении этой задачи. Контроль качества получаемой ДНК мы проводим с помощью электрофореза в агарозном геле, концентрацию определяем на приборе Qubit 3.0 Fluorometer (Thermo Fisher Scientific, США) по протоколу производителя [12].

После выделения тотальной ДНК проводится наработка необходимых участков для секвенирования с помощью ПЦР. Нами были выбраны участки гена 16S рРНК, поскольку, как говорилось выше, последовательность гена позволяет подобрать универсальные праймеры. Качество получаемых фрагментов зависит от степени комплементарности праймеров к участкам гена 16S рРНК [13, 14]. Последовательности праймеров состоят из регион-специфичной части, которая комплементарна границам амплифицируемого региона, и синтетической части, некомплементарной специфичной части и предназначенной для последующей гибридизации адаптеров для секвенирования. Праймеры подбирают таким образом, чтобы как минимум четыре 3’-концевых нуклеотида не были комплементарны самому праймеру или праймеру в паре во избежание образования димеров праймеров. Даже единичное расхождение в комплементарности последних 3–4 нуклеотидов на 3’-конце праймера может значительно снизить эффективность ПЦР, в том числе при условии подбора оптимальной температуры отжига [15, 16].

Существует множество постоянно обновляемых баз данных, содержащих последовательности генов 16S рРНК микроорганизмов различных видов [17, 18]  и позволяющих, в том числе с помощью специальных программ [19], самостоятельно подобрать универсальные праймеры. В своей работе мы выбрали последовательности универсальных пар праймеров к регион-специфической части V3 и V4 участков гена 16S рРНК [23]. В качестве синтетической части были выбраны последовательности комплементарные адаптерам двух типов: Nextera и Truseq (синтетическая часть каждого праймера предназначена для последующей гибридизации адаптеров) (табл. 1).

После подбора праймеров необходимо провести оптимизацию условий проведения ПЦР (подобрать концентрацию праймеров, концентрацию ДНК, оптимальную температуру отжига, концентрацию Mg2+, количество циклов и т. д.) для получения достаточного количества и качества необходимых ампликонов для дальнейшего секвенирования. Проверку качества ПЦР проводят с помощью электрофореза в агарозном геле. При оптимизации условий необходимо помнить об отрицательном и положительном контроле. В качестве отрицательного контроля чаще всего используют ту же ПЦР-смесь, что и для исследуемых образцов, только без добавления ДНК-матрицы. В качестве положительного контроля мы используем два образца ДНК: ДНК одного образца принадлежит бактериям рода Rhizobium, а другого — рода Rhodoccocus.

На количество нарабатываемых ампликонов может влиять образование димеров праймеров во время ПЦР [20]. При этом образование димеров можно увидеть при проведении контроля в агарозном геле (рис. 1). Снизить образование димеров можно путем разбавления праймеров, добавляемых в реакцию, а также изменением температуры их отжига. Оптимальная температура отжига праймеров, кроме того, дает возможность получать наиболее чистый продукт, поскольку обеспечивает точное прикрепление праймера к участку ДНК. Современные приборы позволяют проводить ПЦР с использованием градиента температур, что позволяет подобрать оптимальную температуру отжига за один прогон. Для эффективного проведения ПЦР также важна концентрация ионов Mg2+, поскольку они связываются с dNTP, праймерами, ДНК-матрицей и хелатирующими агентами (EDTA), которые могут присутствовать в буфере [21]. Известно, что активность полимеразы увеличивается при высокой концентрации Mg2+, однако при этом снижается точность полимеразы. Как правило, для подбора оптимальной концентрации ионов Mg2+ в реакционной смеси проверяют влияние концентрации в диапазоне от 1 до 4 мM с шагом в разбавлении 0,5 мМ.

При подборе условий для ПЦР оказалось, что для амплификации регионов V3 и V4 16S рРНК больше подходят праймеры под адаптеры Nextera. Вероятно, это связано с уникальностью последовательности Nextera, которая не комплементарна участкам генома исследуемых бактерий, что исключает образование побочных продуктов. Оптимальные условия для проведения ПЦР на приборе Step One Plus (Applied Biosystems, США) представлены в табл. 2.

После получения необходимого фрагмента для секвенирования проводят двойное баркодирование (индексирование) библиотек также с помощью метода ПЦР. Баркодирование — это «пришивание» последовательности, несущей индекс длиной восемь нуклеотидов и необходимой для последующего различения образцов из одной пробы при секвенировании сразу нескольких образцов [22]. Стоит отметить, что существует множество наборов реагентов для баркодирования при секвенировании на приборах Illumina, например Nextera XT Index kit. В нашем случае олигонуклеотиды были синтезированы в компании «Евроген» (Россия). Подбор условий ПЦР при баркодировании  показал, что эффективность реакции не зависит от чистоты ДНК-матрицы и предварительная очистка образцов не требуется. Нами были подобраны оптимальные условия ПЦР для праймеров-индексов Nextera (табл. 3), они представлены в табл. 4.

Необходимо отметить важность проведения контроля качества библиотек фрагментов ДНК во избежание получения ошибок на этапе секвенирования. Мы проводим контроль качества  с помощью прибора Agilent Bioanalyzer 2100 (Agilent Technologies, США) (рис. 2).

Секвенирование образцов 

В данной статье мы не будем подробно разбирать особенности этапа секвенирования, поскольку оно проводится по стандартным протоколам компании-производителя [24, 25]. Мы проводим секвенирование образцов на приборе MiSeq компании Illumina согласно стандартным протоколам с парноконцевыми прочтениями длиной 250 п. н.

Биоинформатический анализ

Полученные прочтения обрабатываются и классифицируются в соответствии с базой данных рибосомальной систематики RDP (Мичиганский университет, США) версии 11.5 при помощи пакета RDPTools версии 2016-07-21 [26, 27]. Порог условной вероятности корректности классификации (параметр -conf) устанавливается равной 50 % в соответствии с рекомендуемыми параметрами запуска, указанными в [28].

Необходимо отметить важность проведения контроля качества секвенирования. Так, не менее 95 % последовательностей в каждом образце должны быть высокого качества, т. е. не должны содержать адаптерных и иных загрязняющих последовательностей, не картирующихся на геном человека. Кроме того, следует уделять особое внимание количеству прочтений для каждого образца при метагеномном секвенировании. Не существует стандартного значения для данного критерия: число прочтений, прежде всего, зависит от цели исследования. Так, если цель исследования заключается в оценке только основных типов бактерий в образце, то достаточно небольшого числа прочтений (например, в 22 образцах, взятых из кишечника человека, при количестве прочтений 350 можно обнаружить два основных типа бактерий: 75 % Firmicutes и 18 % Bacteroidetes) [4]. Однако следует помнить, что чем больше прочтений выбрано, тем более малочисленные микроорганизмы удастся обнаружить в образцах и тем незначительнее влияние ошибки сэмплирования. Для описания метагенома с высоким разрешением количество прочтений обычно составляет 10 000 и выше [4].

Значения доли последовательностей, которые не удалось классифицировать, доли последовательностей, классифицированных как «неизвестная бактерия», медианной доли последовательностей, для которых надежно определен род и семейство, должны соответствовать ожидаемым результатам для анализа микробиального метагенома методом 16S рРНК. Так, доля неопределенных ридов не должна превышать ~20 %, семейство должно определяться для ~70 % последовательностей и более, а род — для ~50 % и более. Однако, приведенные выше значения не являются стандартными и могут варьироваться от исследования к исследованию.

В результате анализа обычно формируется таблица, в которой указываются таксоны различного уровня (домен, тип, класс и т. д.) и содержится информация о таксономическом дереве и относительной представленности таксонов в каждом образце. Примером такой таблицы является табл. 5.

ВЫВОДЫ

При проведении метагеномного секвенирования участков гена 16S рРНК  важным этапом является подбор праймеров для амплификации, поскольку от качества полученных ампликонов зависит точность последующего секвенирования. В данной статье нами описан подход к подбору оптимальных условий ПЦР на стадии подготовки образца, позволяющий самостоятельно подобрать условия для проведения ПЦР на этапе подготовки библиотек, и основные проблемы этапа. Хотя существует достаточное количество публикаций, посвященные созданию библиотек для метагеномного секвенирования [29], нами разработан конкретный протокол, подобраны оптимальные условия для амплификации регионов V3 и V4 16S рРНК с универсальными праймерами для последующего секвенирования на  платформе Illumina. Стоит отметить, что качество амплификации  зависит от многих факторов, в том числе и от качества используемых реагентов, поэтому условия проведения ПЦР не могут быть универсальными и варьируются в зависимости от реагентов.

КОММЕНТАРИИ (0)