ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Определение эмоционального состояния свёрточной нейронной сетью по данным электроэнцефалографии
Балтийский федеральный университет имени Иммануила Канта, Калининград, Россия
Вклад авторов в работу: В. Б. Савинов, С. А. Ботман, В. В. Сапунов и В. А. Петров — сбор и обработка материала, написание текста статьи; И. Г. Самусев — написание, редактирование текста статьи; Н. Н. Шушарина — руководство и редактирование статьи.
Эмоции играют ключевую роль в повседневной жизни человека, оказывая значительное влияние на восприятие, принятие решений, общение между людьми. Внутреннее эмоциональное состояние может проявляться внешне (например, в тоне голоса или выражении лица), а также внутренне — в изменении физиологических параметров. Исследования, основанные на методах самооценки, позволяют получить полезную информацию, однако такой подход имеет проблемы с достоверностью и верификацией полученных результатов [1]. Голос и выражение лица также не являются надежными индикаторами эмоций, поскольку их можно сымитировать [2]. В то же время анализ физиологических сигналов позволяет обеспечить достижение более глубокого понимания основных эмоциональных реакций и связанных с ними биологических процессов [3].
Для определения эмоционального состояния путем анализа физиологических данных чаще всего используют следующие биосигналы: кожно-гальваническую реакцию (КГР), электромиограмму (ЭМГ), частоту сердечных сокращений (ЧСС), частоту дыхательных движений, электроэнцефалограмму (ЭЭГ). Среди них наиболее интересен сигнал ЭЭГ, который отражает динамику работы коры головного мозга, где происходит формирование определенных эмоциональных реакций. Несмотря на то что ЭЭГ имеет низкое пространственное разрешение, данный метод обеспечивает достаточно высокое временное разрешение, позволяя изучать фазочастотные изменения в ответ на эмоциональные раздражители. Кроме того, снятие ЭЭГ происходит неинвазивно, быстро и не требует использования дорогостоящих расходных материалов, что делает такой метод получения биологических данных предпочтительным при изучении физиологических реакций на эмоциональные раздражители.
Как правило, работы в области распознавания эмоционального состояния на основе данных ЭЭГ связаны с классификацией сравнительно небольшого числа дискретных состояний, вызываемых специфическими стимулами. При этом чаще всего используют следующий подход: сырой ЭЭГ-сигнал фильтруют, затем из него извлекают признаки, а в конце выполняют непосредственно классификацию с использованием одного из алгоритмов машинного обучения. Важным фактором, влияющим на эффективность подобного подхода, являются конструирование и подбор надлежащих признаков — математически рассчитанных характеристик сигнала от временных, частотных и иных параметров. Обычно при создании признаков учитывают эмпирические и теоретические данные о биологии работы мозга и протекающих в нем процессах, вызываемых эмоциональными стимулами.
Далее выбранные признаки используют для формирования векторов признаков для моделей машинного обучения, таких как случайный лес, многослойный перцептрон, метод опорных векторов, метод k-ближайших соседей и пр. [4–6]. Качество классификации для подобных подходов различается в зависимости от качества входных сигналов, критериев задачи и выбора типа алгоритма. Такой подход позволяет достичь точности классификации в 77% случаев для ЭЭГ-сигнала [7] и 83% случаев при использовании дополнительных модальностей [8]. На результат значительным образом влияет выбор как модели и ее параметров, так и признаков сигнала, а также методик сокращения пространства признаков.
При альтернативном варианте решения задачи по определению эмоционального состояния по сигналам ЭЭГ используют нейронные сети свёрточного типа и глубокого обучения. Нейронные сети с успехом применяют в анализе различных электрофизиологических сигналов [9]. В настоящее время анализ ЭЭГ с помощью свёрточных нейронных сетей используют для решения различных медицинских задач и организации мозг–компьютерного взаимодействия: предсказания эпилептических приступов [10], детектирования волны P300 [11], распознавания эмоций [12, 13] — в том числе на открытом наборе данных DEAP [14]. Это позволяет утверждать об эффективности применения свёрточных нейронных сетей для решения поставленной задачи. При этом глубокое обучение позволяет осуществлять автоматическую генерацию оптимальных признаков в процессе обучения алгоритма и полностью исключить ручной отбор признаков. Впрочем, в некоторых работах по распознаванию эмоционального состояния с использованием нейронных сетей в качестве входных данных используют рассчитанные вне сети признаки [15], Фурье и вейвлет-образы сигнала [16, 17].
Основной целью работы было решить задачу бинарной классификации валентности эмоционального состояния по данным электроэнцефалографии путем создания и обучения нейронной сети свёрточного типа, а также сравнить эффективность ее работы с алгоритмами, использующими явное формирование вектора признаков, на примере модели случайного леса.
ПАЦИЕНТЫ И МЕТОДЫ
В качестве подопытного был выбран один из участников проекта (здоровый мужчина, 30 лет, без истории психических заболеваний), на котором проводили многократные эксперименты в течение нескольких недель с применением различных стимулов, что является адаптацией известного в литературе метода [18]. Этот вариант отличается от широко распространенного подхода по рекрутингу большого числа подопытных, с каждым из которых проводят однократные экспериментальные сессии. Однако несмотря на то что все данные получают с единственного субъекта, их объем оказывается достаточно большим за счет многократного повторения экспериментов. Разумеется, эмоциональный отклик на схожие стимулы может различаться у разных людей, однако в рамках исследования это многообразие лишь усложняет поиск физиологических паттернов, соответствующих конкретным эмоциональным состояниям. Использование единственного подопытного в череде экспериментов значительно повышает интерпретируемость данных, ведь индивидуальные особенности восприятия стимулов остаются неизменными.
Первоначальный набор видеофильмов для вызова одного из двух эмоциональных состояний (положительного или отрицательного) был сформирован на основании предпочтений испытуемого. Испытуемый был знаком со всеми «эталонными» видеосюжетами, за счет чего его эмоциональное состояние при просмотре было во многом обусловлено не столько внешним стимулом, сколько внутренними особенностями психической деятельности, например воспоминаниями. Впоследствии база видеоматериалов была расширена за счет подбора дополнительных образцов, чью принадлежность к определенной категории эмоциональных стимулов определяли на основании схожести с «эталонными». Экспериментальная часть, посвященная сбору данных, заняла две недели. За это время было проведено десять сессий по два часа каждая. В рамках одной сессии испытуемый просматривал по шесть пятнадцатиминутных видео (два для каждой категории) с перерывами. Ролики не повторяли. Различные видео демонстрировали поочередно, в таком порядке: позитивное, негативное.
Для записи данных ЭЭГ использовали разработанное ранее нейроустройство [19]. Следуя стандартным практикам, были выбраны чашечные хлорсеребряные электроды (Ag/AgCl), которые использовали вместе с электропроводящим гелем. Электроды закрепляли на специальной шапочке для снятия ЭЭГ согласно системе 10–20 в позициях F3, F4, C3, C4, P3, P4, O1, O2 по монополярной схеме — электрод на позиции Fpz использовали как в качестве земли, так и в качестве референса. Сигналы ЭЭГ снимали на частоте 250 Гц. Для выделения полезного сигнала использовали фильтры Баттерворта второго порядка на частотах 1 и 50 Гц, а также дополнительно режекторный фильтр для частоты 50 Гц.
После фильтрации данные стандартизировали (по каждому каналу отдельно) и сегментировали скользящим окном размером 2 с перекрытием 0,2 с и подавали на вход нейронной сети. Для расчета признаков использовали фильтрованный сигнал без стандартизации с аналогичной сегментацией. В качестве признаков было выбрано несколько из рекомендуемых в литературе [20]: пересечения высокого порядка (ПВП) в диапазоне от 1 до 6, мощность в полосах частот (МПЧ) для дельта, тета-, альфа-, бета- и гамма-диапазонов, а также относительная асимметрия по каналам (ОАК).
Непосредственно обучение всех моделей проходило по единой схеме: данные ЭЭГ для каждой из экспериментальных сессий размечали в зависимости от типа демонстрируемого стимула, во время которого они были получены. Использовали бинарную разметку: позитивные стимулы относили к одному классу, а негативные — к другому. Обучение нейронной сети вели методом стохастического градиентного спуска по мини- батчам (оптимизатор — Adam [21], размер мини-батча — 64, скорость обучения — 0,001, число эпох — 30) с категориальной перекрестной энтропией в качестве функции потерь. Таким образом, входной тензор имел размерность [64, 8, 500], где 64 соответствует размеру мини-батча, 8 — число каналов ЭЭГ, 500 — длительность сегмента ЭЭГ данных, взятых с перекрытием в 50 отсчетов.
Все этапы, включая регистрацию, обработку сигналов и тренировку моделей, осуществляли с помощью кода, написанного на языке Python с использованием библиотек scikit-learn и Keras.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
В результате эксперимента была создана нейронная сеть со следующей структурой: два свёрточных слоя по 64 ядра, слой нормализации по батчу, слой активации ELU (экспоненциальная линейная функция), слой субдискретизации (по среднему, размер окна — 4, шаг — 1), два свёрточных слоя по 64 ядра, слой нормализации по батчу, слой активации ReLU (блок линейной ректификации), слой субдискретизации (по максимуму, размер окна — 2, шаг — 1), два свёрточных слоя по 128 ядер, слой нормализации по батчу, слой активации ReLU, слой субдискретизации (по максимуму, размер окна — 2, шаг — 1), полносвязный слой в 256 нейронов с активацией ReLU. Во всех свёрточных слоях использовали следующие параметры: размер — 3, шаг — 1, заполнение — 0. В качестве функции активации для выходного слоя использовали функцию softmax (нормализованную экспоненциальную функцию).
Применение нейронной сети позволило достичь значения F1-меры на уровне 87% на валидационной выборке, что значительно выше соответствующего показателя для модели случайного леса (составившего 67%). Согласно матрицам несоответствия (рисунок), модель случайного леса успешно идентифицировала положительные состояния (несколько превосходя по этому параметру нейронную сеть), однако обладала низкой специфичностью для отрицательных, в то время как метод глубокого обучения с равной эффективностью идентифицировал и дифференцировал оба состояния.
Проверка работы свёрточной нейронной сети на данных с предварительно отфильтрованными артефактами (электроокулография (ЭОГ)) не продемонстрировала существенных изменений точности классификации. Проведенный анализ активаций нейронной сети показал, что артефакты ЭОГ не вносят существенного вклада в классификацию сигнала.
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
В настоящее время устоявшийся подход к анализу электрофизиологических сигналов на основе ручного выбора признаков сигнала и классических моделей машинного обучения вытесняет решения, полученные на основе нейронных сетей. Такие тенденции можно наблюдать и в области классификации эмоционального состояния. Одним из основных отличий предложенного подхода от аналогов, базирующихся на применении нейронных сетей свёрточного типа, является использование в качестве входных данных сигнала напрямую без перевода его в частотное представление (например с помощью преобразования Фурье или вейвлет-преобразования).
С учетом того, что для обучения и тестирования использовали данные, полученные в рамках этой работы, невозможно сравнить эффективность разработанной сети с аналогами. Однако можно с уверенностью утверждать, что данная сеть показывает лучшие результаты по сравнению с классическим подходом. Использование сети позволяет также избавиться от ручного выбора оптимального набора признаков под конкретные решаемые задачи.
ВЫВОДЫ
Предложенный подход к классификации эмоций на основе нейронной сети сверточного типа без преобразования сигнала в частотное представление показал свою эффективность по сравнению с методом случайного леса на базе признаков сигнала. Дальнейшее развитие данного подхода будет направлено на повышение общности, а также расширение числа распознаваемых классов эмоций. В перспективе создание эффективных методов оценки эмоционального состояния человека позволит использовать их для решения прикладных задач, в частности в психологии и маркетинге.