МЕТОД

Разработка кастомных баркодов для секвенирования на платформе MGI

А. О. Шмитко, И. А. Булушева, Ю. А. Василиадис, О. Н. Сучалко, Д. С. Сырко, В. А. Белова, А. С. Павлова, Д. О. Коростин
Информация об авторах

Российский национальный исследовательский медицинский университет имени Н. И. Пирогова, Москва

Для корреспонденции: Анна Олеговна Шмитко
ул. Островитянова, д. 1, c. 1, г. Москва, 117997, Россия; moc.liamg@79imhsanna

Информация о статье

Финансирование: соглашение о предоставлении из федерального бюджета грантов в форме субсидий в соответствии с пунктом 4 статьи 78.1 Бюджетного кодекса Российской Федерации на осуществление государственной поддержки создания и развития центра геномных исследований мирового уровня «Центр высокоточного редактирования и генетических технологий для биомедицины» No 075-15-2019-1789 от 22.11.2019.

Вклад авторов: А. О. Шмитко — планирование исследования, сбор данных, подготовка рукописи; И. А. Булушева — методология, анализ данных, подготовка рукописи; Ю. А. Василиадис, О. Н. Сучалко, Д. С. Сырко — анализ данных, программное обеспечение, визуализация; В. А. Белова — планирование исследования, рецензирование и редактирование рукописи; А. С. Павлова — курация данных, анализ данных, программное обеспечение; Д. О. Коростин — концептуализация, супервизия, методология, рецензирование и редактирование рукописи.

Статья получена: 15.08.2024 Статья принята к печати: 17.09.2024 Опубликовано online: 10.10.2024
|

MGI Tech, основанная в 2016 г. как дочерняя компания BGI Group, является относительно новым игроком на рынке секвенирования следующего поколения (NGS) [13]. Первая платформа для секвенирования MGISEQ-2000 была представлена в 2017 г., за ней последовали платформы MGISEQ-200RS и MGISEQ-T7. MGI выпускает линейку секвенаторов на основе технологии наношариков ДНК и секвенирования cPAS [4]. Секвенирование возможно в одноконцевом и парнокоцевом режиме, с использованием одно- или двухбаркодных условий.

Технология предполагает баркодирование образцов на этапе лигирования адаптеров, содержащих их последовательности. Баркодирование ДНК-библиотеки необходимо для маркирования последовательностей, принадлежащих разным биообразцам, а также для идентификации прочтений в процессе преобразования промежуточных файлов секвенирования в общеупотребимый формат fastq. Длина последовательности баркода у MGI составляет 10 пар оснований.

Стандартные наборы реагентов для подготовки библиотек и секвенирования на приборе средней производительности DNBSEQ G-400 предназначены для одноиндексного секвенирования, тогда как режим двойного баркодирования является опциональным и требует приобретения дополнительных наборов. В настоящее время MGI предлагает набор, включающий 96 баркодированных адаптеров для этапа лигирования при подготовке библиотеки ДНК для одноконцевого секвенирования. Кроме того, MGI предлагает 32 последовательности баркодов для синтеза.

Система G-400 чувствительна к балансу нуклеотидов на каждом цикле секвенирования баркода, так как качество резко падает, если одна и та же позиция в последовательностях баркодов с одной и той же дорожки занята одним и тем же нуклеотидом. По этой причине набор баркодов на одном лейне должен удовлетворять критериям комбинации их последовательностей и формировать совместимые сеты. Предлагаемый MGI набор из 96 адаптеров формирует 11 сетов (2 по 4, 8 по 8 и 1 на 24 баркода). Однако на практике возникает необходимость комбинировать образцы с баркодами из разных сетов, изменять количество образцов, загружаемых на дорожку ячейки, и их соотношение. В лабораторной практике нередко возникают ситуации, когда одна или несколько библиотек ДНК не соответствуют стандартам контроля качества на заключительном этапе. Гибкий подход к комбинированию образцов упрощает задачу объединения библиотек для загрузки на дорожку. Кроме того, необходимо учитывать задачу комбинирования образцов с разным требуемым объемом выходных данных, например экзомов с разным покрытием ×200 и ×100.

Таким образом, производитель накладывает ограничения на пользователей платформы довольно небольшим набором баркодов и сетов, что не позволяет раскрыть ее истинный потенциал для секвенирования. Это может оказаться критичным при выборе платформы для секвенирования. Для Illumina разработаны индивидуальные решения для различных задач [57], в то время как для MGI таких решений пока нет.

Ранее мы разработали программное обеспечение, позволяющее выбрать оптимальную комбинацию предоставленных баркодов при различных соотношениях и количестве образцов для наборов адаптеров MGI [8]. Обновленное ПО, включающее пользовательские баркоды, доступно в репозитории GitHub (https://github.com/genomecenter/BC-store/tree/custom-adapter-sets). Для приборов Illumina для выбора сбалансированного соотношения баркодов в зависимости от задач секвенирования программы также существуют [911].

Цель данной работы — представить разработанный нами алгоритм, позволяющий генерировать необходимое для исследования количество последовательностей баркодов. Используя его, мы подобрали 252 баркода, сформировав 63 сбалансированных сета, каждый из которых состоит из 4 баркодов и позволяет комбинировать любые наборы сетов между собой.

МАТЕРИАЛЫ И МЕТОДЫ

Формулировка метода и подбор баркодов

Секвенатор имеет ограничения по интенсивности регистрируемого сигнала от флуорофоров, соответствующих нуклеотидам. Если в одной и той же позиции баркодов содержится одинаковый нуклеотид, то качество прочтения значительно снижается, что приводит к ошибкам идентификации баркодов и дальнейшего отнесения прочтений к образцам [8]. По этой причине перед нами стояла задача подобрать баркоды таким образом, чтобы они формировали наиболее сбалансированные комбинации. В основу алгоритма подбора последовательностей лег «метод четверок», который предполагает добавление к баркодам из набора MGI трех баркодов, полученных последовательной заменой оснований (рис. 1A, Б).

Согласно методу четверок, каждый из 96 баркодов может стать root-баркодом своей четверки. Таким образом можно получить 96 × 4 = 384 уникальных баркода.

Поскольку доля каждого основания в каждой позиции составляет 25%, полученная комбинация сбалансирована и гарантирует высокое качество секвенирования.

Проверка на соответствие критериям

Проверка на совместимость по сбалансированности

Поскольку каждая четверка является идеально сбалансированной, можно комбинировать любое количество четверок между собой. При этом соотношение долей четверок внутри пула может быть разным, однако внутри четверок доли баркодов должны быть одинаковыми.

Кроме того, мы проверили, возможно ли формировать пулы, содержащие 4n + 2 баркода, где n — количество четверок. Проверку совместимости проводили на примере комбинации из 10 баркодов с помощью программы BC-store (рис. 2). Доля каждого нуклеотида (nucleotide fraction) в любой позиции в пуле из 10 баркодов имеет минимальное и максимальное отклонения, равные 0,2 и 0,3, и соответствует критериям сбалансированной комбинации. Это справедливо при добавлении двух любых баркодов из одной четверки в равном или меньшем соотношении к n количеству четверок.

Проверка на совместимость баркодов по количеству несовпадающих нуклеотидов

На следующем этапе все четверки были проверены на совместимость по количеству несовпадающих нуклеотидов (мисматчей). Каждый образец, маркированный баркодом, должен быть распознан однозначно, поэтому последовательности баркодов не должны совпадать на определенное количество нуклеотидов. Нами был выбран порог в 4 мисматча, так как все из 96 10-нуклеотидных баркодов производителя отличаются друг от друга не менее чем на четыре нуклеотида. В анализ также был включен баркод 999 верификации MGI (техническая последовательность длиной 10  п.н., присутствующая в файле демультиплексирования оригинального программного обеспечения). Построив граф несочетаемых четверок (см. приложение, рис. S1) и используя матрицу смежности (см. приложение, рис. S2), мы отобрали 63 четверки (252 баркода), совместимые друг с другом по количеству допустимых мисматчей (рис. 3). Последовательности всех 252 баркодов приведены в приложении (табл. S1).

Проверка на уникальность

Мы проверили, не встречаются ли предложенные нами последовательности баркодов среди оригинальных MGI. Это необходимо для составления файла с баркодами для автоматического демультиплексирования. Для этого была построена диаграмма Венна с набором кастомных и оригинальных MGI баркодов (рис. 4). В результате было получено 63 пересечения, где все 63 баркода — оригинальные MGI, и 189 — уникальные, не совпадающие с MGI из разных наборов.

Подготовка к секвенированию

Синтез адаптера

Согласно протоколу производителя, для создания индивидуального адаптера необходим отжиг двух олигонуклеотидов, один из которых (top) содержит последовательность баркода и фосфат на 5'-конце (Ad153_5T_1-index # (1~128) у производителя), а Bottomолигонуклеотид имеет частично комплементарную верхнему (top) последовательность (Ad153Ω_Bottom_2) (https://en.mgitech.cn/Download/download_file/id/71) [12].

Последовательности олигонуклеотидов с баркодами 1A-1D приведены в таблица, полный список со всеми 252 баркодами в приложении (табл. S1).

Приготовление адаптеров осуществляли следующим образом. К 70 мкл LowTE буфера добавляли 1 мкл 5М NaCl, 10 мкл 200 мкМ top-олигонуклеотида, и 10 мкл 200 мкМ Bottom-олигонуклеотида. Далее нагревали до 95 °С в течение 2 мин и постепенно охлаждали до 17 °С с шагом 0,5 °С длительностью 30 с.

Алгоритм добавления новых баркодов на секвенатор

Для автоматического демультиплексирования секвенированных библиотек, следуя рекомендациям MGI, мы создали файл .csv (см. приложение, табл. S2), содержащий последовательности баркодов, включая новые кастомные, оригинальные MGI и 999-валидационный. Баркоды MGI, вошедшие в состав четверок, имели вид nA, где n — номер адаптера в оригинальном наборе MGI. Кастомные  баркоды были обозначены nB, nC, nD — в соответствии с порядком формирования четверок. Запись оригинальнальных баркодов MGI, не вошедших в четверки, осталась неизменной. Номера баркодов были отделены от последовательностей запятыми без пробелов.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Для проверки разработанных нами баркодов, были подготовлены библиотеки с синтезированными кастомными адаптерами. Библиотеки, подготовленные по стандартному протоколу MGI, были объединены в пул и обогащены c помощью набора SureSelect Human All Exon v7 [13], а затем секвенированы в режиме PE100 на приборе DNBSEQ G-400.

Демультиплексирование Fastq выполнялось программным обеспечением, встроенным в G-400, MGI basecalllite, на основе загруженного файла с последовательностями баркодов. По умолчанию алгоритм относит прочтение в категорию «undecoded» (не декодированные данные), если в последовательности баркода длиной 10 п.н. есть два или более несоответствий. Таким образом доля недекодированных прочтений может быть использована в качестве метрики качества синтезированных адаптеров.

Мы сравнили долю недекодированных прочтений в общих данных с каждой дорожки с кастомными баркодами (44 дорожки ячеек для секвенирования) и данные предыдущих запусков (44 дорожки), в которых использовались баркоды MGI. В среднем (среднее ± SD) доля некодированных чтений на одной дорожке составила 1,08 ± 0,19% и 1,68 ± 0,22% для адаптеров MGI и кастомных адаптеров соответственно (рис. 5). Хотя доля недекодированных данных увеличилась при использовании предложенных баркодов по сравнению с оригинальными (T = 13.5, df = 83, p-value = 1.17E-22), абсолютное значение по отношению к общему количеству данных, полученных с одной дорожки, можно считать незначительным. Отношение недекодированных данных к общим данным в ГБ представлены в приложении (табл. S3).

Таким образом, мы разработали подход для создания собственных баркодов, позволяющий одновременно секвенировать более 96 образцов на 1 дорожке секвенаторов MGI.  Мы получили 189 кастомных баркодов, которые можно комбинировать с 63 баркодами MGI для создания 63 сбалансированных четверок. Один баркод из каждой четверки представляет собой оригинальный MGI (nA, где n — номер оригинального баркода), а три других — дополняющие его пользовательские баркоды (nB, nC, nD).

Эти четверки можно комбинировать друг с другом в любом количестве и соотношении, пока соотношение между баркодами одной четверки остается равным. Также возможно составлять пулы библиотек с числом баркодов 4n+2, где n — число четверок, к которым можно добавить два любых баркода из другой четверки. В этом случае доли двух последних баркодов не должны превышать доли остальных.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Платформа MGI предназначена для быстрого высокопроизводительного секвенирования и обладает неоспоримыми преимуществами, но при этом имеет ряд ограничений. Мы попытались преодолеть некоторые ограничения, обусловленные решениями и наборами, предлагаемыми производителем. Наш подход позволяет повысить эффективность секвенирования и расширить возможности платформы MGI. Однако важно учитывать, что комбинации четверок с некоторыми оригинальными адаптерами MGI, не входящими в состав четверок, могут не соответствовать критерию совместимости по числу несовпадений. Поэтому мы рекомендуем проверить их сбалансированность с помощью программы BC-Store. Мы предполагаем, что более высокое значение количества некодированных чтений может быть связано с недостаточной чистотой синтезированных олигонуклеотидов по сравнению с MGI [14]. Ранее мы заказывали синтез одинаковых баркодов у двух разных производителей и наблюдали, что в случае одного из них доля некодированных чтений была повышенной.

ВЫВОДЫ

Подобранные нами баркоды позволяют варьировать соотношение и количество библиотек, загружаемых на дорожку ячейки для секвенирования, в зависимости от задач и требуемого количества данных на выходе. В совокупности с применением разработанной нами ранее программы BC-store можно значительно упростить и ускорить задачу составления пулов библиотек для секвенирования на приборах MGI как в парноконцевом, так и одноконцевом режимах. Учитывая все преимущества и недостатки разработанного нами метода, его можно использовать в качестве дополнительного или альтернативного решения к предложенному производителем MGI.

КОММЕНТАРИИ (0)