МНЕНИЕ
Глубокое обучение в моделировании белок-лигандного взаимодействия: новые пути в разработке лекарственных препаратов
1 Институт биоорганической химии имени М. М. Шемякина и Ю. А. Овчинникова Российской академии наук, Москва, Россия
2 Московский физико-технический институт, Долгопрудный, Россия
3 Российский национальный исследовательский медицинский университет имени Н. И. Пирогова, Москва, Россия
Для корреспонденции: Зинаида Михайловна Осипова
ул. Миклухо-Маклая, 16/10, г. Москва, 117997, Россия; ur.hcbi@avoksakz
Финансирование: исследование выполнено за счет гранта Российского научного фонда № 22-44-02024, https://rscf.ru/project/22-44-02024/.
Вклад авторов: А. Д. Барыкин — анализ литературы, написание рукописи, Т. В. Чепурных — идея, анализ литературы, написание и редактирование рукописи, З. М. Осипова — руководство проектом, редактирование рукописи.
Компьютерное (in silico) моделирование белок-лигандного взаимодействия играет ключевую роль в биомедицинских исследованиях и является одной из фундаментальных задач в современном процессе разработки новых лекарственных препаратов. Чем более аффинно и избирательно биоактивная молекула связывается с рецептором или ферментом, тем более эффективным и безопасным будет итоговый лекарственный кандидат. Достоверность моделирования определяет количество и качество молекул-кандидатов, которые будут проходить дорогостоящую процедуру химического синтеза и испытаний in vitro и in vivo. Стадия моделирования часто является ключевой: от нее в большой степени будет зависеть время, стоимость разработки и конечная цена лекарства [1]. Высокоэффективного метода биоинформатической автоматизированной оценки белоклигандного взаимодействия до недавнего времени не существовало.
Классические методы компьютерного моделирования
Молекулярный докинг — метод молекулярного моделирования, предсказывающий наилучшее положение лиганда относительно белка-мишени, который использует их трехмерные структуры и оценочные функции энергии взаимодействия молекул (scoring functions). Обучение оценочных функций (рис. 1А) обычно происходит на основе набора экспериментально определенной аффинности связывания белка с лигандами, похожими на изучаемый. Правильность прогноза, таким образом, будет напрямую зависеть от степени сходства нового изучаемого кандидата и известных лигандов из базы данных.
Большое разнообразие оценочных функций можно объяснить недостаточной надежностью каждой из них в случае решения конкретной задачи. Разные оценочные функции лучше подходят для разных классов лигандов, но даже в случае правильного подбора метода не существует абсолютной гарантии результата. Поэтому консенсусное оценивание (использование данных сразу нескольких оценочных функций) повышает вероятность успеха докинга [2].
В случае «жесткого» докинга алгоритмы рассматривают молекулы лиганда и мишени как твердые тела, в случае «динамического» докинга программы допускают возможность конформационных изменений в лиганде при его связывании. Методы, лежащие в основе алгоритмов докинга (рис. 1Б), можно условно разделить на систематические и статистические. Систематические методы разбивают молекулу лиганда на несколько частей, что позволяет оценивать аффинность взаимодействия каждой части, а затем части ковалентно «сшивают», чтобы «пересобрать» лиганд. Статистические методы для поиска глобального минимума энергии генерируют случайные изменения, для каждого из которых оценивается термодинамическое состояние [3]. К статистическим относят метод Монте-Карло, поиск с запретами, метод «роя частиц» и эволюционные алгоритмы. Систематические алгоритмы гарантируют достижение результата за конечное число шагов (как правило, очень большое), статистические могут «пропустить» искомое энергетическое состояние. Однако на практике статистические алгоритмы часто показывают более достоверные результаты, чем систематические.
За последние два десятилетия возникли десятки бесплатных и коммерческих программ для молекулярного докинга: DOCK, AutoDock, Surflex, LigandFit, MCDock, LeDock, AutoDock Vina, rDock, UCSF Dock и многие другие [4]. Обычно программы используют сразу несколько алгоритмов, позволяя адаптировать докинг под конкретные пары фермент–лиганд.
В большинстве случаев методы современного белоклигандного докинга верно определяют сайт и механизм связывания лиганда, но не могут установить его аффинность с достаточной точностью [5]. Это значительно снижает применимость метода для поиска новых лекарственных средств, поскольку подбор молекул-кандидатов осуществляется именно по величине энергии связывания.
Метод молекулярной динамики (МД) основан на использовании уравнений движения атомов и эмпирических функций потенциальной энергии для расчета межатомных взаимодействий и описания эволюции молекулярной системы во времени. Взаимодействия между атомами включают упругие взаимодействия (соответствующие ковалентным химическим связям) и силы Ван-дер-Ваальса. Наиболее важные методы постобработки для расчета свободной энергии связи комплекса взаимодействия белка и лиганда используют также принципы молекулярной механики с применением уравнения Пуассона–Больцмана / обобщенной модели Борна, а также дополнительные подходы, такие как термодинамическая интеграция и свободный анализ [6].
Основным ограничением в методе молекулярной динамики является длина молекулярной траектории, которая задается количеством шагов симуляции. Временной шаг симуляции должен быть сопоставим с самым быстрыми движениями в системе, а именно колебаниями связей (1–2 фс). Таким образом, для моделирования медленных процессов, например движения больших доменов и связывания (мкс–мс), требуется большое число шагов МД, что значительно увеличивает объем вычислений. Поэтому наблюдение фактического связывания белка с лигандом — очень редкое явление [7]. Ожидалось, что МД-моделирование, основанное на расчетах сродства связывания с использованием молекулярной механики при использовании уравнения Пуассона–Больцмана, внесет значительный вклад в решение реальных проблем, таких как идентификация самых выгодных комбинаций для пар «белок–лиганд» с их последующей оптимизацией.
Глубокое обучение: новая глава в моделировании белок–лигандных взаимодействий
Первые методы глубокого обучения появились в середине 1960-х, однако обрели популярность только к середине 2000-х гг. с возрастанием вычислительных мощностей и появлением объемных наборов экспериментальных данных. В настоящее время применение технологий глубокого обучения к задачам в различных сферах дало результаты, не уступающие, а иногда и превосходящие результаты традиционных методов. Самый яркий пример — создание алгоритма AlphaFold-2, предсказывающего третичную структуру белка по первичной аминокислотной последовательности в течение всего лишь нескольких минут [8], что стало революцией в области структурной биологии.
Модели глубокого обучения были предложены для прогнозирования белок–лигандного взаимодействия в качестве альтернативы традиционному докингу, основанному на поиске минимума свободной энергии [9]. Преимущество глубокого обучения заключается в возможности изучать белок–лигандное взаимодействие непосредственно из пространственного расположения атомов, минуя выбор математических параметров, которые не всегда отражают реальный механизм связывания. Этот метод предсказания белок–лигандного взаимодействия в настоящее время претерпевает бурное развитие: опубликованная в 2017 г. нейросетевая модель DEEPsite [10] на определенном наборе данных корректно определила 23,8% сайтов связывания лигандов, а опубликованная в 2020 г. нейросеть Kalasanty на той же выборке показала результат 44,6%. PUResNet в 2021 г. значительно улучшила результаты предсказаний (53% успеха у PUResNet против 51% у Kalasanty) [11].
К данному моменту разработано множество разнообразных алгоритмов работы и обучения нейронных сетей (рис. 2). При исследовании белок–лигандных взаимодействий обычно применяют сверточные нейронные сети (CNN), графовые нейронные сети (GNN) и сетитрансформеры. Сверточные нейросети рассматривают парные взаимоотношения между атомами через их взаимное расположение в пространстве. Принцип работы графовых нейросетей основан на учете пороговых значений для определения типа взаимодействия между атомами (ковалентное или нековалентное). Потенциальным преимуществом такого подхода является использование меньшего количества параметров. Используют также комбинации нескольких алгоритмов или добавляют иные модули (например, denoising autoencoder, удаляющий шум), которые улучшают конечный результат [12].
ЗАКЛЮЧЕНИЕ
Среди разных архитектур нейросетей пока не выявлен однозначный лидер: точность результата каждого алгоритма зависит от типа белков и лигандов, аффинности и механизма связывания. Согласно последним данным, графические нейросети egGNN и saCNN оказались наиболее успешными в предсказании аффинности лигандов [13, 14], однако отличие от сверточных нейросетей не является критическим. По нашему мнению, это связано с тем, что оптимальный предсказательный алгоритм пока не разработан. Создание такого алгоритма, судя по скорости развития ИИ в вычислительной биологии, — это, скорее всего, вопрос нескольких лет, а не десятилетий. Так же, как AlphaFold-2 в 2020 г. изменил парадигму в области изучения структуры белка, так и искусственный интеллект в биомедицинских исследованиях открывает новую главу в фармацевтике и драг-дизайне.
Перспективность использования ИИ для поиска лекарственных препаратов уже стала очевидна для индустрии, поскольку его применение существенно ускоряет и удешевляет классический двенадцатилетний цикл разработки нового лекарства. За последние пять лет почти все крупные фармкомпании объявили о партнерстве с ведущими ИИ-компаниями (Sanofi — Aily Labs, Pfizer — IBM, Novartis — Microsoft, AstraZeneca — Benevolent и др.). Детали исследований, вероятно, еще долго будут защищены коммерческой тайной, однако регулярно выходят пресс-релизы, свидетельствующие о внедрении глубокого обучения в текущие R&D-процессы. Кроме того, появляется все больше сообщений об успехе лекарственных кандидатов, разработанных с помощью ИИ, которые готовятся к прохождению или находятся в клинических испытаниях. Примерами таковых являются халицин (перспективный антибиотик широкого действия, доклинические исследования) [15], INS018_055 (препарат от идиопатического легочного фиброза, 2-я стадия клинических испытаний), REC-2282, REC-994, REC-4881, BEN-2293, EXS-21546, RLY-4008, EXS-4318, BEN-8744 и др. [16].
Мы считаем, что в ближайшем будущем поиск пула новых биоактивных молекул кардинально ускорится, а глубокое обучение станет обязательной частью процесса разработки новых лекарственных препаратов. Тем не менее, до сих пор одной из актуальных проблем на пути к повсеместному применению глубокого обучения при поиске лекарств остается грамотный подбор данных, используемых для обучения нейросетевой модели, поскольку от их качества критически зависит достоверность ее предсказаний. В связи с этим задача максимально эффективного обучения на неполных или небольших наборах данных остается главным вызовом перед ИИ в сфере разработки лекарств [17].