ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Разметка цветных фотографий глазного дна улучшает распознавание макулярной патологии с помощью глубокого обучения
1 Российский национальный исследовательский медицинский университет имени Н. И. Пирогова, Москва, Россия
2 ООО «Инновационные технологии», Нижний Новгород, Россия
3 Приволжский окружной медицинский центр Федерального медико-биологического агентства, Нижний Новгород, Россия
4 Институт системного программирования имени В. П. Иванникова РАН, Москва, Россия
5 Институт систем энергетики имени Л. А. Мелентьева, Иркутск, Россия
Для корреспонденции: Павел Викторович Глизница
ул. Белинского, д. 58/60, эт. 5, 603000, г. Нижний Новгород; moc.duoci@pastinzilg
Финансирование: работа выполнена при финансовой поддержке Фонда содействия инновациям (договор №150ГС1ЦТНТИС5/64226 от 22.12.2020).
Вклад авторов: Х. П. Тахчиди — редактирование рукописи. П. В. Глизница — концепция и дизайн исследования, сбор и обработка данных, анализ результатов, написание текста рукописи; С. Н. Светозарский — участие в сборе данных, анализ результатов, работа с литературой, написание текста рукописи; А. И. Бурсов — работа с литературой, разработка алгоритмов, редактирование рукописи; К. А. Шустерзон — разработка и валидация алгоритмов, подготовка иллюстраций, участие в написании текста.
Болезни сетчатки занимают второе место и составляют 28,9% среди причин инвалидности по зрению в Российской Федерации [1]. Построение эффективной системы раннего выявления ретинальной патологии на этапе массовой диспансеризации остается нерешенной задачей. Подобные программы требуют построения логистики и выделения штата, что подразумевает, кроме разового финансирования на этапе внедрения, регулярные затраты на поддержание системы и оплату труда персонала. С помощью компьютеров можно быстрее анализировать большие массивы данных, а алгоритмы машинного обучения автоматизируют длительную и трудоемкую процедуру отбора пациентов, подлежащих углубленному обследованию. Таким образом, технологии искусственного интеллекта, способные проводить скрининг на глазные заболевания, могут сократить дефицит кадров в первичном звене здравоохранения и снизить затраты на диспансеризацию, одновременно увеличивая число пациентов, обоснованно направляемых к офтальмологу по поводу подозреваемой офтальмологической патологии [2].
Одной из основных причин слабовидения остается возрастная макулярная дегенерация (ВМД) — дегенеративное заболевание сетчатки, распространенное среди лиц в возрасте 50 лет и старше. Для него характерно наличие в макулярной зоне мягких друз диаметром 63 мкм и более, гиперпигментации и/или гипопигментации пигментного эпителия, отслойки пигментного и нейроэпителия, географической атрофии пигментного эпителия, ретинальных геморрагий и рубцовых изменений сетчатки [3].
ВМД имеет большое клиническое и социальное значение. Распространенность ВМД в возрастной группе от 50 до 85 лет составляет 8,69%, из которых ранняя ВМД занимает 8,01%, поздние стадии — 0,37% [4]. Математическое моделирование позволяет спрогнозировать увеличение абсолютной численности больных ВМД от 196 млн человек в 2020 г. до 288 млн — к 2040 г. [4]. Поздние формы ВМД приводят к выраженной деградации центрального зрения, что снижает качество жизни, ограничивает жизнедеятельность и ухудшает трудоспособность. Своевременное выявление заболевания и адекватный мониторинг пациентов являются залогом успешного лечения неоваскулярной формы ВМД, поскольку эффективность антиангиогенной терапии напрямую зависит от времени, прошедшего от момента манифестации до получения первой дозы препарата [5]. Фоторегистрация глазного дна — распространенный и высокочувствительный метод визуализации макулярной патологии, его использование в целях массового скрининга позволило значительно повысить выявляемость ранних стадий ВМД в ряде стран [6].
Цель настоящего исследования — разработка и валидация алгоритмов машинного обучения для диагностики макулярной патологии на примере ВМД на основе анализа цветных фотографий глазного дна с предварительной разметкой данных и без нее, а также оценка чувствительности и специфичности методики на тестовом наборе данных.
МАТЕРИАЛЫ И МЕТОДЫ
В исследовании использовали набор цветных фотографий глазного дна, собранных на базе ООО «Центр зрения» (г. Челябинск) и офтальмологического отделения ФБУЗ ПОМЦ
ФМБА России (г. Нижний Новгород) на фундус-камерах Visucam 500 (Carl Zeiss; США). Критерии включения фотографических снимков в исследование: наличие диагноза ВМД на одном глазу в электронной амбулаторной карте пациента; наличие специфических признаков ВМД на фотографическом изображении; отсутствие признаков иных заболеваний сетчатки (диабетической ретинопатии и др.). Качество изображений оценивали в баллах по шкале от 1 до 4 по методике Klais C. и соавторов, где 1 балл — высокое качество, 2 балла — среднее качество, 3 балла — низкое качество, 4 балла — нечитаемый снимок [7]. Изображения, оцененные в 3–4 балла, выбраковывали. В работе использовали широко распространенную клиническую классификацию ВМД, выделяющую раннюю, промежуточную и позднюю стадии (табл. 1) [8]. Классификация изображений в первично сформированной базе была верифицирована слепым методом: обезличенный набор данных был представлен для независимой классификации и определения стадии ВМД двум врачам-офтальмологам, имеющим опыт работы более 5 лет.
В результате, набор данных составил 1200 цветных фотографий глазного дна, включая 575 изображений сетчатки пациентов с ВМД и 625 ретинальных фотографий здоровых пациентов. Согласно классификации, 127 изображений сетчатки пациентов с ВМД были отнесены к ранней стадии, 341 — к промежуточной и 107 — к поздней стадии ВМД.
Распределение данных в обучающую и тестовую выборки выполняли в случайном порядке, для обучения нейронной сети использовали 994 изображения (475 глаз с ВМД, 519 глаз здоровых пациентов), для тестирования — 206 фотографий (100 — пациентов с ВМД, 106 — здоровых пациентов).
Для решения поставленной задачи использовали два подхода к обучению:
- обучение сверточной нейронной сети на наборе данных, состоящем из бинарно классифицированных изображений без указания областей интереса;
- обучение сверточной нейронной сети на наборе данных, состоящем из бинарно классифицированных изображений с указанием областей интереса путем детекции объектов с помощью ограничительных рамок (bounding boxes).
В обоих случаях в качестве сверточной основы использовали архитектуру глубокого обучения ResNet-50 и трансферное обучение [9]. Трансферное обучение — это использование сверточных нейронный сетей, предварительно обученных на большом наборе сторонних данных. Подобная сеть с уже имеющимися весами впоследствии обучается на небольшом наборе непосредственно необходимых данных. В настоящей работе предварительное обучение проходило на наборе данных ImageNET с миллионами изображений, разделенных на 1000 различных классов [10].
Изображения глазного дна из локальных баз данных проходили предпроцессинг в виде преобразования в стандартное разрешение 512 × 512, затем были обработаны предварительно обученной нейронной сетью Faster RCNN c ResNet50 в качестве сверточной основы. Каждое окно вывода было связано с меткой категории и оценкой softmax в [0, 1]. Для отображения этих изображений использовали порог оценки 0,7. Время выполнения для получения этих результатов составляет 120 мс на изображение, включая все шаги. В результате, этапы анализа изображений можно представить следующим образом: предпроцессинг, обработка сверточной нейросетью с формированием карты признаков, выделение на ней региональных предложений, определение областей интереса и классификация изображения в один из двух классов (ВМД или норма) на основании признаков, расположенных в пределах области интереса (рис. 1).
Все алгоритмы были разработаны в Python 3.7 с использованием библиотек PyTorch 1.5.0, TorchVision
0.6.0, Tensorflow 1.14.0, Keras 2.0.8, Pillow 7.2, OpenCV 4.5.2, Cuda 10.1, cudnn 7.6.5. Вычисления проводили на следующем аппаратном обеспечении — GPU - RTX 2070 с дизайном Max-Q 8 ГБ GDDR6, CPU - Intel Core i7 9750H, 16 ГБ RAM 2666 МГц (Intel; США).
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
Классификация изображений сверточной нейронной сетью без указания областей интереса
Все цветные изображения глазного дна из обучающей выборки были приведены к разрешению 512 × 512 и нормализованы по среднему пикселю. Затем было запущено обучение нейронной сети на этих данных. Обучение продлилось 193 мин, 50 итераций, используемый размер батча (объединенная загрузка) — 10 изображений, в качестве оптимизатора был использован стохастический градиентный спуск с модификацией Нестерова, параметр Learning Rate — 0,0005, момент — 0,9. Функция потерь — категориальная кросс-энтропия, метрика — точность.
При валидации полученной модели на тестовом наборе данных была определена следующая эффективность модели: достигнута специфичность 77,4%, чувствительность — 80,9%, точность — 79% (табл. 2). Для получения информации о том, какие именно области изображения были задействованы для классификации, были выгружены данные визуализации тепловых карт активации классов (рис. 2).
В результате установлено, что нейросетью были неверно выбраны области внимания: область диска зрительного нерва, которая не задействована при развитии патологического процесса при ВМД, и парамакулярная область. Таким образом, нейронная сеть использовала неправильные признаки при обучении, которые тем не менее коррелируют с результатом классификации.
Классификация изображений сверточной нейронной сетью с предварительным указанием областей интереса
Была использована та же выборка, что и в первом случае, но с использованием разметки макулярной области как региона интереса методом ограничительных рамок (bounding-box). Все изображения были приведены к разрешению 512 × 512 и нормализованы по среднему пикселю. Для имплементации object detection был использован метод Faster RCNN + FPN network [11]. Обучение продлилось 158 мин, проведено 10 итераций, используемый размер батча — 10 изображений, в качестве оптимизатора был использован стохастический градиентный спуск с модификацией Нестерова, параметр Learning Rate — 0,0001, момент — 0,05, weigth decay — 0,0005. Функция потерь — категориальная кросс-энтропия для классификации, Mean Average Accuracy — метрика измерения точности для классификации, IoU Intersection over Union — метрика измерения точности для детекции. После 10 итераций обучение разработанной модели было прекращено из-за появления эффекта переобучения [12].
На тестовом наборе данных модель продемонстрировала точность классификации, равную 96,6% при чувствительности — 99,0% и специфичности — 94,3% (табл. 2). Визуализация областей интереса показала адекватное определение информативных участков на изображениях (рис. 3).
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Проведенное исследование показало, что нейронная сеть Faster RCNN c ResNet50 в качестве сверточной основы позволяет эффективно дифференцировать цветные фотографии глазного дна пациентов с ВМД от фундусизображений пациентов со здоровой сетчаткой. При этом установлено, что при использовании небольшой выборки объемом 1200 изображений можно достичь высокой точности классификации за счет предварительной разметки данных.
В работах, посвященных диагностике ВМД на основе анализа цветных фотографий сетчатки с помощью нейронных сетей, чувствительность достигала 84,5–89,0%, специфичность — 83,1–89,0%, точность — 88,4–91,6% [13, 14]. В работе, посвященной выявлению ранних стадий ВМД на фундус-изображениях, удалось добиться чувствительности и специфичности 96,7%, 96,4% [15]. Данные показатели были достигнуты при отсутствии разметки данных, однако объем выборок во всех случаях составлял более 50 000 изображений, что на порядок отличается от выборки в настоящем исследовании [13–15]. В этой связи интерес представляют сравнимые показатели эффективности, достигнутые нами при сравнительно небольшом наборе данных за счет использования простого и быстрого способа разметки.
В метаанализе результатов 13 исследований были получены следующие средние показатели эффективности нейронных сетей в дифференцировании ВМД: чувствительность — 0,92, специфичность — 0,89 [16]. Однако в данный анализ были включены работы, опирающиеся как только на снимки фундускамеры, так и на результаты оптической когерентной томографии. В метаанализе исследований, посвященных автоматизированной диагностике ВМД только на основе цветных фотографий сетчатки, чувствительность и специфичность составили 0,88 и 0,90 соответственно [17]. Таким образом, достигнутый в нашей работе уровень точности сравним с результатами исследований, опирающихся на значительно более масштабные наборы данных.
Следует отметить, что экспресс-диагностика ВМД на цветных изображениях глазного дна традиционно лежит в основе программ массового скрининга, но имеет ограниченное применение в сфере специализированной помощи. В данной сфере перспективным направлением является определение стадий ВМД в представленном наборе данных [18–20] и выявление на снимках отдельных патологических элементов [21], что может служить целям мониторинга в ходе клинического наблюдения и при проведении клинических испытаний.
С одной стороны, небольшой объем обучающей выборки и объединение в один класс различных стадий ВМД можно считать ограничением настоящей работы, с другой стороны, они позволили ответить на вопросы, поставленные в исследовании. Использование выборки небольшого объема подтвердило, что при ограниченном объеме локальной базы данных можно успешно разработать вычислительные модели для автоматизированной диагностики заболеваний сетчатки при условии разметки данных обучающей выборки. Клиническая гетерогенность патологических изменений позволяет моделировать реальную ситуацию скрининга, где необходимо с высокой чувствительностью выявлять разнообразную патологию с целью направления на дообследование.
ВЫВОДЫ
Автоматизированная диагностика заболеваний сетчатки как одной из ведущих причин слепоты и слабовидения открывает новые возможности для массового скрининга ВМД среди населения. Применение быстрого и простого в исполнении метода разметки изображений в виде ограничительных рамок (bounding boxes) значительно повышает точность разрабатываемых методик распознавания медицинских изображений с помощью нейросетевых технологий. В результате, можно добиться высокой точности классификации, опираясь на локальные базы данных небольшого объема. В то же время это подчеркивает важную роль врачей-специалистов в разработке новых методов диагностики, основанных на машинном обучении. Развитие данного направления требует консолидированных усилий офтальмологов и ITинженеров по созданию крупных аннотированных баз ретинальных изображений, собранных на различных моделях фундус-камер, что при нанесении разметки позволит добиться высокой точности и воспроизводимости результатов в реальной клинической практике.