ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Прогнозирование исходов программ экстракорпорального оплодотворения с использованием модели машинного обучения «Случайный лес»
1 Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
2 Национальный медицинский исследовательский центр акушерства, гинекологии и перинатологии имени В. И. Кулакова, Москва, Россия
Для корреспонденции: Аюна Эрдэмовна Дашиева
ул. Академика Опарина, д. 4Б, г. Москва, 117198, Россия, ur.liam@aveihsad.rd
Вклад авторов: Г. М. Владимирский — обучение прогностических моделей, анализ литературы, выбор методов исследования; М. А. Журавлева — предобработка и анализ данных, анализ литературы, написание рукописи; А. Э. Дашиева — обработка исходного материала, анализ результатов; И. Е. Корнеева, Т. А. Назаренко — разработка анкеты для базы данных, редактирование рукописи.
Бесплодие — проблема, затрагивающая десятки миллионов семей. Развитие вспомогательных репродуктивных технологий (ВРТ) принесло надежду таким парам стать родителями. Согласно отчету РАРЧ в 2020 г. в Российской Федерации (РФ) было выполнено 148 660 циклов ВРТ, родилось около 34 250 детей. Однако, несмотря на удовлетворенность потребности населения в этом методе лечения бесплодия, частота наступления клинической беременности в расчете на один перенос эмбриона составляет 34,8% [1]. Поскольку вероятность успеха ЭКО зависит от многих факторов, усложняющих оценку результативности циклов, разработка инструмента принятия решений, основанного на анализе этих факторов, могла бы улучшить качество медицинской помощи и консультирования пациенток, проходящих лечение в программе ЭКО.
В научной литературе предложен ряд моделей машинного обучения, прогнозирующих исходы ЭКО и предлагающих идентификацию наиболее важных для предсказания характеристик женщин и протокола программы [2].
Наиболее распространенный подход к прогнозированию результатов ЭКО — использование линейных моделей. В обзоре 2020 г. выявлено 35 таких моделей, все из них основаны либо на логистической регрессии, либо на регрессии Кокса [3]. Часто в таких исследованиях качество моделей не оценивают, хотя для этого существуют предпочтительные способы, например ROC-AUC и c-статистика. Для качественной оценки прогностических моделей используют ROC-анализ с построением ROCкривой (от англ. Receiver operating characteristic). ROCанализ заключается в построении четырехпольных таблиц с оценкой чувствительности и специфичности модели. ROC-кривая — график, позволяющий дать оценку качеству модели по разделению двух классов. По оси ординат отложены значения частоты истинно положительных результатов (чувствительность), по оси абсцисс — частоты ложноположительных результатов (специфичность). Значения по осям соответствуют значениям от 0 до 1 (т. е. от 0 до 100%). Полученная кривая показывает зависимость верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. Для идеального классификатора график ROCкривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 1,0 или 100% (идеальная чувствительность), а доля ложноположительных примеров равна 0. Кроме графика ROC-кривой, для оценки качества модели используют характеристику площади под кривой ROC-AUC (Area under ROC). Чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Чаще показатель AUC предназначен для сравнительного анализа нескольких моделей. Значения ROC-AUC при прогнозировании результатов ЭКО в литературных источниках варьируют от 0,58 до 0,73 [3–12].
Линейные прогностические модели успеха ЭКО обычно включают в себя около семи признаков. Наиболее распространенными оказываются возраст женщины, причины бесплодия, исход предыдущих беременностей и программ ЭКО, число полученных ооцитов и перенесенных эмбрионов и полученных ооцитов [4, 5, 9–11]. Некоторые исследователи предполагают, что ограниченное число признаков, переходящих от исследования к исследованию, приводит к скромной прогностической способности моделей, и выступают за выявление новых факторов, связанных с успехами и неуспехами процедуры [13].
Несмотря на распространенность моделей логистической регрессии, они имеют ряд недостатков. Так, например, в ряде исследований было обнаружено, что взаимосвязь между некоторыми ключевыми характеристиками, такими как возраст женщины, количество полученных яйцеклеток, год начала лечения, и успехом ЭКО нелинейна [10, 11]. В таких случаях возможно применение функции кубического сплайна с целью интерполяции данных (например, возраста) для придания линейным моделям нелинейности либо полиномиальное преобразование данных [8, 10, 11]. Тем не менее, подобные модификации линейных моделей все еще основаны на простой (полиномиальной) зависимости между целевой переменной и признаками.
Кроме того, модели логистической регрессии, будучи интерпретируемыми, не имеют высокой прогностической способности. Поэтому многие исследователи обратились к нелинейным неинтерпретируемым моделям машинного обучения, которые охватывают такие методы, как «Случайный лес», градиентный бустинг и нейронные сети. Среди этих методов «Случайный лес» и градиентный бустинг часто рассматривают как самые современные для задач бинарной классификации с табличными данными, поскольку они, как правило, превосходят другие методы с точки зрения точности и обобщения [2]. Как правило, площадь под кривой ROC для подобных моделей, колеблется от 0,68 до 0,86, что выше, чем у линейных классификаторов [14–16].
Основное ограничение в использовании нелинейных неинтерпретируемых моделей — сложность оценки вклада отдельных признаков в предсказание моделей. Тем не менее, разработанные в последние годы методы предлагают возможность интерпретации признаков для любых моделей машинного обучения вне зависимости от их сложности. В настоящем исследовании применен метод SHAP, основанный на значении Шепли, концепции из кооперативной теории игр. В нем аппроксимированное значение Шепли (средний вклад признака во все коалиции признаков) использовано для вычисления вклада каждого признака в прогноз модели [17], что позволит более точно прогнозировать исходы программ ЭКО.
Цель настоящего исследования — построить нелинейные модели прогнозирования исходов ЭКО и выявить наиболее значимые факторы, влияющие на результат лечения.
ПАЦИЕНТЫ И МЕТОДЫ
Клинический материал исследования
Для построения модели использовали данные, включающие характеристики и результаты программ ЭКО 7004 женщин, прошедших лечение в 17 клиниках ВРТ на территории РФ в период с 2011 по 2020 г. Критерии включения: возраст женщин от 18 лет до 45 лет с любыми факторами бесплодия (N97). Критерии исключения: противопоказания для проведения ВРТ и вынашивания беременности (согласно Приказу МЗ РФ от 31 июля 2020 г. № 803н «О порядке использования вспомогательных репродуктивных технологий, противопоказаниях и ограничениях к их применению»).
Распределение клиник, участвующих в исследовании в субъектах РФ, представлено на рис. 1. Сбор материала осуществляли путем заполнения специалистами клиник специально разработанных анкет, содержащих 770 признаков. Получаемые данные содержали несколько блоков информации: социальные характеристики пациентов (124 вопроса), данные анамнеза (171 вопроса), куда вошли данные о состоянии соматического здоровья (58 вопросов), состоянии гинекологического здоровья (108 вопросов), история бесплодия и методов лечения (73 вопроса), данные лабораторного обследования (6 пунктов), данные о партнере пациентки (210 вопросов), данные протокола овариальной стимуляции (7 вопросов) и эмбриологического этапа (30 вопросов), поддержки лютеиновой фазы, исхода программы ЭКО.
Обработка и анализ данных
Предобработка данных для модели включала в себя отбор минимального значения среди нескольких анализов уровня гормонов в сыворотке крови (антимюллеровый гормон, или АМГ; фолликулостимулирующий гормон, или ФСГ; лютеинизирующий гормон, или ЛГ; тиреотропный гормон, ТТГ; пролактин). Разреженные и дублирующиеся данные были удалены, что сократило число признаков до 408. Пропуски в данных были заполнены средними значениями. Для статистического анализа использовали отношение шансов (ОШ) [18]. Расчет p-value по полученному отношению шансов производили в соответствии с источником [19].
Отбор и интерпретация важности признаков
В данном исследовании применяли метод «Случайного леса» (Random forest) — метод машинного обучения, использующий ансамбль деревьев решений (decision tree) для задач классификации. Каждое отдельное дерево в таком лесу дает предсказание класса, и набравший наибольшее количество голосов класс становится предсказанием. Данная работа направлена на предсказание наступления беременности после процедуры программы ЭКО.
Для интерпретации важности признаков после использования модели «Случайного леса» использовали показатель важности Джини. Он позволяет сравнить распределение признака в выборке с различным числом единиц [20]. Использованная для выделения признаков модель имела гиперпараметры (параметры, настраиваемые вручную перед обучением модели), максимизирующие значение метрики ROC-AUC на пятикратной кросс-валидации, и была впоследствии обучена на полном датасете (наборе данных в машинном обучении). С целью отбора оптимального числа признаков для предсказания использовали метод рекурсивного отбора признаков с пятикратной кроссвалидацией, в рамках которого на каждом этапе из признаков модели удалял признак, имеющий минимальную важность Джини в модели. Все вышеперечисленные методы были использованы в реализации библиотеки scikit-learn [21]. В рамках расширенной интерпретации признаков задействовали метод SHAP [17], подходящий для интерпретации значимости признаков для нелинейных моделей.
Используемые модели
Ввиду наличия большого количества бинарных и категориальных признаков, а также существования нелинейных зависимостей между признаками и целевой переменной, в качестве основного классификатора была выбрана модель «Случайного леса», реализованная в библиотеке scikit-learn [21]. Параметры модели были выбраны с использованием метода GridSearch с пятикратной кросс-валидацией [21], оценка качества модели происходила с использованием показателя ROCAUC, который менее чувствителен к дисбалансу классов, наблюдаемому в данных. Наилучшими параметрами для модели «Случайного леса» оказались максимальная глубина, равная 50, минимальное число объектов в листе, равное 2, и общее число деревьев, равное 2000. Кроме того, в этом исследовании была протестирована модель классификатора Catboost [22]. Catboost был выбран изза встроенной поддержки категориальных признаков, отличающей его от других реализаций алгоритма градиентного бустинга. Роль целевой переменной для всех обученных моделей играло наличие беременности у женщины.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
Использование рекурсивного отбора признаков показало, что максимального значения метрики ROC-AUC можно достигнуть при обучении «Случайного леса» на 220 признаках, и оно составляет 0,69. Максимальный ROCAUC Catboost на кросс-валидации составил 0,68, поэтому для дальнейшего анализа использовали более удобную в интерпретации модель «Случайного леса». Графическая иллюстрация изменения метрики ROC-AUC при постепенном удалении признаков для модели «Случайного леса» представлена на рис. 2.
При постепенном удалении признаков значение метрики в начале изменяется незначительно, начиная резко падать только при количестве признаков меньше 33. Поэтому в качестве оптимального количества признаков в модели было выбрано число 33, а модель, обученная на этих признаках, позволяет добиться значения ROC-AUC, равного 0,69.
Важность 20 признаков, дающих наибольший вклад в предсказание полученной модели, была проанализирована при помощи критерия важности Джини (рис. 3).
Наиболее значимыми для предсказания признаками оказались дата рождения пациентки (возраст), количество оплодотворившихся ооцитов и общее число полученных ооцитов — показатели, сопоставимые с международными исследованиями [16].
Уровни АМГ в сыворотке крови имели наибольший вес в предсказании по сравнению с другими показателями содержания гормонов, однако в международных исследованиях этот признак используют значительно реже, чем параметры гонадотропных гормонов (ФСГ и ЛГ) [8]. Заметный вклад в предсказание вносила также клиника, в которой проводили ЭКО.
Методом SHAP был проведен дополнительный анализ 20 лучших признаков. Увеличение значений таких признаков, как количество оплодотворенных ооцитов, дата рождения пациентки, уровень АМГ, использование прогестерона в лютеиновой фазе цикла, увеличивают вероятность предсказания успеха ЭКО моделью (рис. 4).
Нами были построены модели, предсказывающие исход программы ЭКО для отдельных диагнозов бесплодия. Полученные значения ROC-AUC не превосходили значение метрики, полученной для всей выборки, из чего можно сделать вывод, что использование моделей для отдельных типов бесплодия нецелесообразно (таблица).
У женщин с безуспешными программами в прошлом вероятность успешного исхода ЭКО ниже, чем у женщин с первой попыткой ЭКО или с прошлыми успешными попытками (ОШ = 0,7675; p < 0,0001), поэтому неудивительно, что переменная, показывающая число прошлых попыток, фигурирует в значимых признаках, отобранных «Случайным лесом» — классификатором, показавшим лучшие результаты при кросс-валидации. Тем не менее, мы считаем модель, описанную нами, более релевантной для российской популяции, чем зарубежные модели, описанные в литературных источниках.
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Согласно полученным нами данным, качество текущей прогностической модели «Случайного леса» (ROCAUC = 0,69) было сопоставимо с качеством аналогичных зарубежных моделей. Так лучшая модель в недавнем исследовании показала качество ROC-AUC 0,68 [14].
Несмотря на сопоставимость значений ROC-AUC нашей модели и моделей, описанных в литературе, даже если эти модели имеют одинаковую целевую переменную они, чаще всего, включают в себя различные критерии отбора пар. Так, часть моделей, представленных в литературе, не содержит информации о прошлых попытках ЭКО женщины, и предполагается только вероятность успеха в первом цикле лечения [14]. Полученная нами модель ЭКО опирается на результаты предыдущих программ. В обучающих данных, использованных нами, 40,9% женщин имели в анамнезе безуспешные попытки ЭКО. Преимуществом нашей модели является возможность предсказывать вероятность успеха ЭКО для одного цикла. В то время как некоторые модели, опубликованные в литературе, предсказывают кумулятивный успех для нескольких циклов ЭКО [10, 11].
Все эти факторы делают сравнение моделей по численным показателям не до конца объективными. Например, можно предположить, что текущая модель имеет ROC-AUC выше, чем модель, описанная ранее [14], поскольку включает в себе информацию о предыдущих успехах ЭКО: так среди 40,9% женщин с прошлыми безуспешными попытками ЭКО, в 92,95% случаев следующие попытки ЭКО закончатся неудачами.
Оценивая результативность разработанной модели с клинических позиций, следует отметить, что нам удалось выделить наиболее важные предикторы успеха программы ЭКО в популяции российских бесплодных пар. В числе этих признаков как хорошо известные (возраст женщины, число оплодотворенных ооцитов, число полученных ооцитов, ИМТ, уровень АМГ), так и не рассматриваемые ранее параметры. Например, было показано, что поддержка лютеиновой фазы препаратами прогестерона ассоциирована с успехом лечения. Хотя назначение прогестерона — рутинная клиническая тактика, до настоящего времени математически доказанного обоснования необходимости поддержки лютеиновой фазы индуцированного цикла не существовало. Кроме того, объективно подтверждено негативное влияние предыдущих неуспешных попыток ЭКО на последующую. Этот факт обусловливает, по всей видимости, необходимость пересмотра тактики лечения при нескольких (в настоящем исследовании — четырех) неудачных попытках ЭКО. Несмотря на то что на сегодняшний день ЭКО — рутинный метод преодоления бесплодия, и казалось бы, все клиники работают по стандартным протоколам и технологиям, модель выявила различия в результатах лечения в зависимости от клиники, предоставившей данные, что может стать основанием для клиник провести анализ своей работы. Интересным оказался факт отсутствия зависимости исходов программ ЭКО от фактора бесплодия при наличии идентичности остальных, значимых параметров, что противоречит многочисленным исследованиям, пытающимся связать исходы ЭКО с нозологической формой бесплодия.
ВЫВОДЫ
За последние десятилетия был разработан ряд моделей прогнозирования ЭКО для оценки индивидуальных результатов лечения, но лишь немногие из них оказались клинически значимыми из-за их недостаточной прогностической способности и используемых статистических методов. Машинное обучение, позволяющее интерпретировать данные и строить прогностические модели, все чаще применяют в клинической практике, особенно в сложных системах с несколькими переменными. В настоящем исследовании построена модель, предсказывающая исход циклов ЭКО с удовлетворительной эффективностью прогнозирования. Выделены важные факторы результативности ЭКО, обнаружены взаимодействия между ними. Мы продолжим работу по практическому применению модели для оценки влияния переменных на результативность лечения.