ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ

Определение оптимальных параметров предварительной обработки данных масс-спектрометрии с прямой ионизацией в нейрохирургии

Информация об авторах

1 Московский физико-технический институт, Москва, Россия

2 Федеральный исследовательский центр химической физики имени Н. Н. Семенова Российской академии наук, Москва, Россия

3 Сколковский институт науки и технологий, Москва, Россия

4 Сибирский государственный медицинский университет, Томск, Россия

Для корреспонденции: Денис Сергеевич Заворотнюк
Институтский переулок, д. 9, 141701, г. Долгопрудный, Московская область; moc.liamg@kuyntorovaz.sined

Информация о статье

Финансирование: работа выполнена в рамках государственного задания Министерства науки и высшего образования (соглашение № 075-03-2022-107, проект № 0714-2020-0006). Исследование выполнено с использованием оборудования ЦКП ФИЦ ХФ им. Н. Н. Семенова РАН.

Вклад авторов: Д. С. Заворотнюк — анализ и интерпретация данных, создание программного обеспечения, написание и редактирование рукописи; А. А. Сорокин — планирование исследования, анализ и интерпретация данных, редактирование рукописи; Д. С. Бормотов — сбор и интерпретация данных, написание рукописи; В. А. Елиферов — финансовое обеспечение эксперимента; К. В. Бочаров — сбор данных; С. И. Пеков — планирование исследования, анализ и интерпретация данных, редактирование рукописи. И. А. Попов — руководство проектом, обеспечение финансирования.

Соблюдение этических стандартов: исследование одобрено этическим комитетом НМИЦН имени Н. Н. Бурденко (протоколы № 40 от 12 апреля 2016 г. и № 131 от 17 июля 2018 г.), проведено в соответствии с принципами Хельсинкской декларации (2000 г.) и ее последующих пересмотров. Все пациенты подписали добровольное информированное согласие на участие в исследовании и использование биоматериалов в исследовательских целях.

Статья получена: 19.12.2024 Статья принята к печати: 03.03.2024 Опубликовано online: 27.04.2024
|

Масс-спектрометрия с прямой ионизацией — один из перспективных методов повышения точности и полноты резекции глиальных опухолей, поскольку радикальное удаление опухоли в настоящий момент является наиболее эффективным лечением онкологических заболеваний головного мозга [1]. Однако при этом возникает задача определения границ опухоли для обеспечения полноты резекции с целью предотвращения рецидива, с одной стороны, и для недопущения избыточной резекции и возникновения нейропатологических последствий — с другой [2]. Основными универсальными интраоперационными методами контроля границ удаляемой опухоли до сих пор остаются позитронноэмиссионная томография с применением компьютерной томографии (ПЭТ-КТ), магнитно-резонансная томография (МРТ) и гистохимический анализ, поскольку иные методы, например флуоресцентное окрашивание, могут оказаться неспецифичными для ряда диагнозов. Однако эти методы времязатратны, а томографические к тому же отличаются высокой стоимостью из-за необходимости оборудования специальных операционных блоков [3].

Масс-спектрометрия (МС) с прямой ионизацией позволяет за короткое время получить данные о молекулярном строении образца [46]. Однако на текущий момент подавляющее большинство вычислительных инструментов для работы с масс-спектрометрическими данными включают работу со спектрами, полученными с помощью МС в тандеме с газовой или жидкостной хроматографией. Эти данные отличаются тем, что количество пиков в каждом скане такого спектра намного меньше, чем в сканах, полученных МС с прямой ионизацией [7, 8]. Простота в подготовке образца и скорость анализа в случае МС с прямой ионизацией позволяют получить значительно более сложные масс-спектры, т. е. большое количество данных за срок, исчисляемый минутами. В то же время для анализа таких данных необходимо применять автоматизированные методы обработки и сложные алгоритмы анализа [911], поэтому большое внимание должно быть уделено контролю качества данных и их предварительной обработке [12].

Масс-спектрометрические данные представляют собой упорядоченные по времени наборы сканов. Каждый скан представляет собой упорядоченный по шкале отношения массы иона к его заряду (m/z) профиль интенсивностей тока ионов, накопленных прибором за определенный интервал времени. На этапе предварительной обработки необходимо преобразовать этот скан в набор, состоящий из интенсивностей и значений m/z пиков, выделенных в скане. Обычно для этого выполняют такие действия, как нормализация значений интенсивностей, определение и удаление шума, определение и выравнивание положения пиков [1315]. Большое разнообразие в подходах к предварительной обработке данных МС говорит о том, что в зависимости от природы образцов, использованных в исследовании, конструкции масс-спектрометра, режима сбора ионов и типа дальнейшего анализа перечисленные выше действия должны выполняться с различными параметрами.

В данной статье описана разработка методики определения параметров предварительной обработки массспектров с целью унификации масс-спектрометрических данных для дальнейшего автоматизированного анализа на примере экспериментальных данных масс-спектрометрии без пробоподготовки, полученных в ходе исследования образцов тканей опухолей головного мозга человека.

МАТЕРИАЛЫ И МЕТОДЫ

В работе использовали масс-спектрометрические данные, полученные при обработке образцов тканей головного мозга человека с диагнозами глиобластома и астроцитома IV степени злокачественности (согласно классификации ВОЗ 2021 г., [16]) и патологии неопухолевой природы, полученных в ходе хирургического лечения лекарственнорезистентной эпилепсии. Всего было исследовано 307 образцов тканей 74 пациентов. Данные были получены с помощью масс-спектрометра Thermo LTQ XL Orbitrap ETD (Thermo Fisher Scientific; США) с картриджной ионизацией [3, 17]. Каждый образец был разделен на две части, одну часть отправляли на стандартный гистохимический анализ для получения медицинского заключения по этому образцу, а из оставшейся части выделяли три фрагмента объемом примерно по 1 мм3, каждый из которых подвергали массспектрометрическому исследованию. Протокол массспектрометрического исследования включает анализ и детектирование ионов в восьми разных режимах, каждый из которых характеризуется полярностью ионов, разрешением детектора и шириной диапазона значений MZ регистрируемых ионов. Сбор ионов в каждом режиме выполняли по два раза.

Накопленные экспериментальные данные подвергали процедуре предварительной обработки с различными значениями параметров, описание которых дано в разделе «Результаты исследования». Процедура предварительной обработки заключалась в калибровке интенсивностей пиков, деформации пиков по отношению к скану с максимальным общим ионным током (TIC), взаимной деформации всех пиков среди сканов одного режима регистрации ионов и фильтрации редких и низкоинтенсивных пиков. Для каждого режима регистрации ионов были получены отдельные наборы сканов. Каждый набор сканов преобразовывался в матрицу интенсивностей пиков, которая использовалась для обучения классификационной модели. В качестве предикторов при обучении моделей выступали столбцы матрицы, содержащие распределения интенсивностей пиков среди всех сканов данного режима, а в качестве отклика были взяты гистологические диагнозы пациентов. Для обучения и проверки моделей были использованы масс-спектрометрические данные, полученные с образцов тканей головного мозга 33 пациентов с диагнозами глиобластома и семи пациентов с диагнозами патологий неопухолевой природы. Доступный для каждого режима набор данных подвергали разделению на тренировочную и проверочную группы в соотношении 3 : 1 соответственно, при этом разделение выполняли таким образом, чтобы разные сканы, полученные от одного образца, присутствовали в обеих группах для снижения степени переобучения моделей.

Анализ данных выполняли на компьютере под управлением ОС Ubuntu 16.04 с установленным пакетом R версии 3.4.4 и R-пакетами MALDIquant [18], caret [19], glmnet [20], ggplot2 [21], и для этого полученные от массспектрометра данные были преобразованы из исходного формата Thermo Finnigan в открытый NetCDF [22] формат с помощью разработанного в лаборатории программного обеспечения [23].

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

В 2012 г. было показано, что различия в масс-спектрах опухолевых и неопухолевых тканей головного мозга могут быть использованы для построения классификаторов, автоматизированно определяющих присутствие злокачественной ткани в биопсийном материале [24]. На рис. 1 показаны пики двух масс-сканов, полученных с образцов тканей пациентов с диагнозами глиобластома и патология неопухолевой природы.

Процедура предварительной обработки массспектрометрических данных состоит из нескольких этапов. На первом этапе производят оценку шумового сигнала и определение отношения «сигнал/шум» для всех сканов:

формула

где Is — интенсивность сигнала, In — интенсивность шума. Существует несколько способов определения интенсивности шумового сигнала в цифровых данных, например, с помощью среднего абсолютного отклонения (MAD) или с помощью регрессии с адаптивной шириной полосы (SuperSmoother) [25]. На последующих этапах низкоинтенсивные пики, для которых отношение «сигнал/ шум» меньше, чем заданное значение SNR, будут исключены из спектра. Под действием переменных факторов окружающей среды и случайных флуктуаций положения максимумов в скане могут слегка изменяться, и для того, чтобы компенсировать такие изменения, следующим шагом производят выравнивание профилей в разных сканах. В качестве референсного используют скан с максимальным TIC, так как предполагается, что этот скан имеет наибольшее зарегистрированное количество ионов, его профиль содержит наибольшее количество различных ионных пиков. Здесь каждый профиль подвергается деформации вдоль оси m/z, так чтобы быть максимально похожим на референсный профиль. Максимально допустимая величина такой деформации задается с использованием предельного допуска на отклонение (TA). Затем производится детектирование пиков — преобразование профиля скана в набор отдельных пиков. Для этого весь профиль разбивают на несколько частей, размер каждой части определяют параметром «полуширина окна» (HWS) — это диапазон точек m/z, внутри которого производится поиск точки с максимальным значением интенсивности. Эта точка назначается пиком в данной части профиля. Затем производится выравнивание положения идентичных пиков среди всего набора сканов. Здесь идентичными считают пики, положения m/z которых различаются не больше, чем заданный допуск на отклонение при детектировании пиков (TBP). На заключительном этапе производят удаление редких пиков и объединение пиков из всех сканов в общую матрицу интенсивностей.

Таким образом, в результате предварительной обработки масс-спектрометрических данных образуется матрица [26], число строк в которой определено количеством сканов, полученных в ходе эксперимента, а число колонок — это объединенное количество пиков из всех сканов. Очевидно, что описанные выше параметры (SNR, TA, HWS и TBP) существенным образом влияют на количество пиков в матрице интенсивностей и вопрос, какие именно значения они должны принимать в каждом конкретном режиме сбора ионов, не является тривиальным.

В классических задачах определения модели, которая наилучшим образом описывает экспериментальные данные [27, 28], с использованием метода регуляризации и набора критериев построения модели определяются информационные критерии [29], экстремальные значения которых соответствуют оптимальным значениям этих критериев. В нашей работе минимальное значение классического информационного критерия Акаике (AIC) [30] было использовано для определения оптимального значения SNR. Оптимальность остальных параметров, а именно HWS, TA и TBP, была определена по экспертной оценке качества обработки спектров.

Параметр SNR

Определение оптимального значения параметра SNR выполняли с использованием критерия Акаике классификационных LASSO-моделей. Для этого составляли комбинацию значений параметров SNR, TA и TBP, выполняли предварительную обработку масс-спектров, строили матрицу интенсивностей, а затем тренировали LASSO-модель, где в качестве тренировочных данных использовали эту матрицу и диагноз пациента. Тренировку моделей производили с кросс-валидацией 5/10, выбор наилучшей модели осуществляли по метрике «Точность».

Комбинации параметров составляли из множеств значений:

SNR: = {1.5, 2}

TA = TBP: = {20, 200, 2000}

Оптимальной комбинацией параметров назначали ту, при которой полученная модель обладала наименьшим значением AIC. Оптимальные значения параметров представлены в табл. 1.

Для предотвращения появления отрицательных интенсивностей шумового сигнала в скане к набору точек (M/Z, Интенсивность) слева и справа были добавлены по 100 нулевых точек, в результате чего оценку шумового сигнала производили на расширенном диапазоне значений M/Z при неизменном количестве значимых пиков в спектре.

Параметры HWS, TA, TBP

Оптимальность параметров HWS, TA и TBP определяли путем проведения экспертной оценки качества обработки спектров. Для этой цели было разработано интерактивное Shiny-приложение Mass-spectrum observer, которое позволяет исследовать, как изменяются форма спектра, положения пиков и характеристики матрицы интенсивностей определенного масс-скана при варьировании значений этих параметров. Исходный код приложения доступен в GitHub-репозитории [31], демонстрационная версия приложения доступна в библиотеке Shiny-приложений со свободным доступом [32]. На рис. 2 и рис. 3 представлены принт-скрины приложения.

Для параметров  HWS, TA и TBP были определены списки возможных значений и для каждой комбинации этих значений проведены процедуры предварительной обработки масс-спектрометрических данных до получения матриц интенсивностей для каждого режима сбора ионов отдельно. Параметр TBP изменялся пропорционально параметру TA с тремя возможными значениями коэффициента пропорциональности. В табл. 2 приведены списки значений параметров.

Для каждой полученной матрицы интенсивностей было определено количество колонок, которое соответствует совокупному количеству пиков, полученных из профилей масс-сканов. Кроме того, в процессе построения матрицы интенсивностей производили определение количества близко расположенных друг к другу пиков в результирующих спектрах. Если расстояние между пиками оказывалось меньше, чем два разрешения прибора при детектировании ионов в данном режиме, то пики рассматривают как возможно дублирующиеся. Такие пики могут возникать в процессе преобразования профилей сканов в наборы отдельных пиков, например, в одном скане при слишком низких значениях параметра HWS, в результате чего относительно широкий по шкале m/z всплеск интенсивности будет представлен несколькими пиками спектра, или в сканах одного файла при низких значениях параметра TBP, из-за чего алгоритм не может составить список идентичных пиков в разных сканах. Дублирующиеся пики определяли внутри одного скана, во всех сканах одного фрагмента ткани, использованного в масс-спектрометрическом исследовании, и среди всех пиков матрицы интенсивностей. Дублирование пиков определяли в зависимости от разрешения массспектрометра при данном режиме сбора ионов, для режима низкого разрешения было взято значение 800 при m/z = 400, для высокого разрешения — значение 30 000 при m/z = 400.

По изменениям этих четырех показателей в зависимости от параметров обработки были определены опорные значения параметров HWS, TA и TBP, которые затем проходили экспертную оценку с помощью Mass-spectrum observer. Результаты экспертной оценки представлены в табл. 3.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Результаты показывают тесную взаимосвязь между параметрами обработки масс-спектрометрических данных прямой ионизации с качеством получаемых спектров. Параметр SNR позволяет сократить число пиков в результирующем спектре, однако следует обращать внимание на наличие отрицательной оценки значений шумового сигнала, которая может возникать как артефакт в граничных областях спектров. В процессе детектирования пиков в профиле оценку шума используют для определения интенсивности пика на данном участке профиля, поэтому отрицательный шум может привести к появлению избыточного количества пиков в спектре. Это может не иметь большого значения в случае детектирования ионов в широком диапазоне M/Z, например, 120–2000, но для узкого диапазона 500–1000 это обстоятельство может быть существенным. В некоторых случаях эти артефакты удается устранить с помощью тонкой настройки метода SuperSmoother, например, путем изменения степени сглаженности при аппроксимации или путем сужения участка профиля, для которого производится оценка шума. Но для каждого отдельного масс-скана эти методы могут давать разные результаты, поэтому в качестве более устойчивого метода устранения отрицательных значений был выбран метод фиктивного расширения массива данных.

Выбор значений HWS, TA и TBP следует осуществлять, в первую очередь, с учетом разрешения прибора. Увеличение полуширины окна в процессе преобразования профиля в матрицу интенсивностей с одной стороны позволяет отсеивать артефактные и дублирующиеся пики (рис. 4), но с другой стороны слишком большие значения этого параметра приводят к исключению значимых пиков из последующего анализа (рис. 5). Значения допусков на отклонения в положениях пиков при выравнивании и детектировании также находятся в тесной связи с полушириной окна и, соответственно, с разрешением, а также с другими особенностями масс-спектрометра, которые обусловлены дрейфом масс и методами оцифровки сигнала. При этом значение TBP не должно быть меньше значения TA, поскольку такая конфигурация значений всегда приводит к увеличению среднего числа возможных дублирующихся пиков. Это происходит изза того, что алгоритму выравнивания пиков не хватает допуска на сдвиг идентичных пиков в разных сканах даже после выравнивания всех сканов на скан с наибольшим ионным током, чтобы убрать дублирующиеся пики. Следует также отметить, что изменение ширины диапазона без изменения разрешения и полярности регистрируемых ионов не оказывает существенного влияния на значения параметров, что является ожидаемым результатом.

ВЫВОДЫ

Разработан универсальный подход определения оптимальных значений параметров предварительной обработки данных, полученных с помощью МС с прямой ионизацией. Применение подхода продемонстрировано на данных, полученных с образцов тканей головного мозга человека с использованием масс-спектрометра Thermo LTQ XL Orbitrap ETD. Разработанный подход может быть использован для определения оптимальных значений параметров предварительной обработки данных, полученных при исследованиях других типов образцов и с применением другого масс-спектрометрического оборудования. Результаты работы показывают, что при использовании МС с прямой ионизацией в клинике как быстрой и более доступной альтернативы традиционным методам интраоперационного мониторинга необходимо тщательно выполнить настройку параметров обработки масс-спектрометрических данных. Параметры необходимо определять с учетом масс-спектрометра и условий проведения исследования. В частности, параметр SNR, определяющий число пиков в результирующих спектрах, следует выбирать, исходя из типа исследуемой ткани и способа ионизации, и значение в пределах 1,5–2 можно принимать за нижнюю границу. При выравнивании профилей сканов и детектировании пиков значения полуширины окна (HWS) и допуска на модификацию скана (TA) следует выбирать в соответствии с разрешением используемого масс-спектрометра, а допуск на отклонение при выравнивании пиков спектров (TBP) не следует выбирать меньше, чем значение параметра TA. Для выбора оптимальных значений этих параметров среди нескольких возможных можно использовать как методы машинного обучения, так и экспертную оценку качества получаемых спектров.

КОММЕНТАРИИ (0)