ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Источники и значимость вариативности потенциалов мозга человека в интерфейсе мозг–компьютер
1 Московский государственный университет имени М. В. Ломоносова, Москва, Россия
2 Центр нейрокогнитивных исследований (МЭГ-центр), Московский государственный психолого-педагогический университет, Москва, Россия
Для корреспонденции: Илья Петрович Ганин
Ленинские горы, д. 1, стр. 12, к. 246, Москва, 119234, Россия; ur.liam@ninagpi
Финансирование: исследование выполнено за счет гранта Российского научного фонда № 21-75-00021, https://rscf.ru/project/21-75-00021/
Благодарности: авторы благодарят Ю. Нуждина из НИЦ «Курчатовский институт» за разработку и поддержку программного обеспечения для регистрации ЭЭГ, при помощи которого проведено исследование
Вклад авторов: И. П. Ганин — проведение исследования, анализ и интерпретация данных, анализ литературы, подготовка текста рукописи; А. Н. Васильев — анализ и интерпретация данных, анализ литературы, подготовка текста рукописи; Т. Д. Глазова — проведение исследования, анализ литературы; А. Я. Каплан — интерпретация данных.
Соблюдение этических стандартов: исследование одобрено этическим комитетом МГУ имени М. В. Ломоносова (протокол № 113-д от 19 июня 2020 г.); все участники подписали добровольное информированное согласие на участие в исследовании.
Интерфейсы мозг–компьютер (ИМК) позволяют напрямую транслировать активность мозга в команды управления компьютером и любыми другими устройствами, не задействуя мышцы и нервы, — только посредством анализа электроэнцефалограммы (ЭЭГ) пользователя [1]. Предложенная и разработанная много лет назад концепция ИМК стала междисциплинарной технологией, основным предназначением которой можно назвать помощь людям с тяжелыми нарушениями речи и движений [2], а также использование в качестве средства инструментальной диагностики или тренировки когнитивных функций [3–5].
В технологиях ИМК часто используют потенциалы, связанные с событиями (ПСС) [6]. Одна из наиболее широко применяемых и уверенно зарекомендовавших себя систем получила название ИМК-P300 (или P300 BCI), поскольку в основе ее работы лежит анализ связанного с вниманием компонента P300 [7, 8]. Пользователь такого интерфейса обычно мысленно считает число подсветок нужной ему буквы или иного командного символа. ПСС на подсветки этого (целевого) объекта отличаются от ПСС на подсветки всех прочих (нецелевых) символов наличием волны P300 [9]. По этому признаку и наличию в составе ПСС других компонентов (в первую очередь, N1) алгоритм ИМК распознает целевой символ-команду [10, 11].
Системы ИМК-P300 востребованы для коммуникации — при наборе текстов или пошаговом управлении какимилибо устройствами [12]. Однако к их недостаткам можно отнести необходимость многократного повтора стимулов для накопления ПСС-ответов с наименьшей ошибкой, когда пользователю ИМК необходимо продолжительное время сохранять внимание на задаче. Кроме того, несмотря на предположение об идентичности мозговых реакций на многократно повторяемые стимулы, существует некоторая вариативность отдельных ответов во времени их возникновения относительно моментов стимулов [13, 14]. Этот феномен известен в рамках нейрофизиологии и в целом отражает ряд естественных мозговых процессов на разных уровнях — от клеточного до нейросетевого, в том числе определяется флуктуациями процессов восприятия внешних стимулов [15].
Известно, что наличие такой вариативности может влиять на форму получаемых усредненных ПСС, в том числе уменьшает амплитуду пиков отдельных компонентов [16]. Отсутствие учета эффектов вариативности может негативно влиять на эффективность ИМК-P300, в основе которого лежит методика выделения ПСС, что приводит к снижению точности распознавания целевых команд [17, 18].
В целом изменение вариативности ПСС связывают с утомлением, повышенным уровнем когнитивной нагрузки, усложнением задачи пользователя [15, 19], а также с состояниями, характеризующимися снижением внимания, например при СДВГ, аутизме [20, 21]. Тем не менее, факторы, влияющие на вариативность ПСС именно в рамках ИМК-P300 систематически не изучали ранее. Между тем, выявление режимов работы ИМК, которые благоприятно или, напротив, негативно действуют на ПСС и точность классификации команд, позволило бы разрабатывать более эффективные системы, которые обеспечат более надежное управление, особенно если речь идет о потенциальных пользователях со сниженным уровнем внимания.
Представляется так же целесообразным учет вариативности ПСС в ИМК-P300 путем модификации алгоритмов классификации команд, что может быть особенно важно при относительно небольшом числе накопления стимулов в этом интерфейсе, когда эффекты вариативности могут не компенсироваться количеством усреднений. Ввиду различного вклада компонентов ПСС в классификацию и их варьирующей топографии у разных пользователей [22] эффективным подходом может быть выделение независимых пространственных компонентов для анализа и учета их вариативности по отдельности.
Целью работы было выявить возможные факторы стимульной среды и режимы работы ИМК-P300, влияющие на степень вариативности ПСС, а также разработать и апробировать более эффективные подходы независимого учета вариативности отдельных компонентов ПСС при классификации.
ПАЦИЕНТЫ И МЕТОДЫ
В исследовании приняли участие 19 здоровых испытуемых (5 мужчин и 14 женщин) в возрасте 18–23 лет. Критерии включения: здоровые добровольцы мужского и женского пола в возрасте 18–35 лет. Критерии исключения: наличие диагностированных неврологических и/или психических заболеваний, эпизодов судорожных припадков или диагностированного эпилептического статуса.
Во время эксперимента испытуемый располагался в кресле перед монитором, на котором осуществляли предъявление стандартной матрицы ИМК-P300 размером 6 × 6 с буквами русского алфавита и цифрами. Угловой размер матрицы составлял 18° × 18°, размер ячеек — 1,7°, расстояние между ячейками — 1,1°. Цвет фона экрана и ячеек — черный (RGB 0,0,0), цвет рамки вокруг ячейки и символа внутри нее — серый (RGB 89,90,97). Стимулами служили подсветки (изменение цвета фона с черного на серый, а цвета буквы — с серого на черный) строк и столбцов матрицы в случайном порядке. Длительность стимулов и межстимульных интервалов — 97 и 48,5 мс соответственно (16 и 8 кадров при частоте обновления экрана 165 Гц). Стимуляцию осуществляли в виде стимульных последовательностей, каждая из которых включала предъявление всех возможных 12 стимулов в матрице (шесть строк и шесть столбцов).
Отдельный режим эксперимента включал 15 блоков, в каждом из которых целевой назначалась одна из ячеек матрицы (указывалась в начале блока многократным подмигиванием). В каждом блоке предъявлялось пять стимульных последовательностей, что соответствовало 60 стимулам (10 целевых и 50 нецелевых). Один режим, таким образом, включал 150 целевых и 750 нецелевых стимулов.
Для изучения влияния различных факторов на вариативность ПСС использовали несколько режимов, отличающихся параметрами стимульной среды и задачей испытуемого. В режиме пассивного внимания испытуемый не должен был активно считать подсветки целевого стимула, как в ИМК-P300, а просто фиксировал взгляд на целевой ячейке. Для усложнения задачи использовали режимы с перемешиванием букв: при каждой целевой подсветке символы во всех ячейках матрицы менялись местами случайным образом. Для создания дополнительной когнитивной нагрузки в ряде режимов с перемешиванием испытуемых просили считать не просто все целевые подсветки, а число согласных букв в целевой ячейке при смене символа. Для облегчения фиксации взгляда на ячейке и уменьшения влияния дистракторов в режимах с «полупустой» матрицей символы не были видны постоянно, а появлялись только во время подсветки (рис. 1).
Ниже перечислены режимы с кратким указанием инструкций испытуемому:
- обычная матрица, пассивное внимание («просто смотреть на целевую ячейку»);
- обычная матрица, активное внимание («считать количество подсветок целевой ячейки»);
- полупустая матрица, активное внимание («считать количество подсветок целевой ячейки»);
- полупустая матрица, перемешивание, активное внимание («считать количество подсветок целевой ячейки»);
- полупустая матрица, перемешивание, когнитивная нагрузка («считать количество согласных в целевой ячейке»);
- обычная матрица, перемешивание, активное внимание: («считать количество подсветок целевой ячейки»);
- обычная матрица, перемешивание, когнитивная нагрузка («считать количество согласных в целевой ячейке»).
Все режимы чередовались в псевдослучайном порядке, за исключением режима с пассивным вниманием, который всегда следовал первым ввиду особой инструкции.
ЭЭГ регистрировали с помощью усилителя NVX52 (МКС, Зеленоград; Россия) в 30 отведениях: Fp1, Fp2, F7, F3, Fz, F4, F8, FC5, FC1, FC2, FC6, T7, C3, Cz, C4, T8, CP5, CP1, CP2, CP6, P7, P3, Pz, P4, P8, PO7, POz, PO8, O1, O2 с объединенным референтом TP9 + TP10. Частота дискретизации сигнала — 1000 Гц. Для синхронизации ЭЭГ с моментами подсветок использовали миниатюрный фотодатчик, закрепленный в левом верхнем углу экрана. Регистрацию сигналов и управление ходом эксперимента осуществляли в оригинальной программной среде Resonance, написанной на языке C++ (http://resonance. bcilab.net/documentation).
Обработку сигнала ЭЭГ и классификацию производили в среде MATLAB 9.13 (R2022b) (MathWorks; США). Сигнал ЭЭГ подвергали полосной фильтрации в диапазоне 1–10 Гц фильтром с конечной импульсной характеристикой без фазового сдвига. Далее методом независимых компонент (ICA) удалялись окулографические артефакты. После этого непрерывный сигнал разбивали на эпохи с границами [–400 1200] мс относительно моментов предъявления стимулов.
Следующим этапом анализа было получение пространственных фильтров, выделяющих из многоканального ЭЭГ-сигнала интересующие нас компоненты (N1 и P300). Для этого у каждого испытуемого выделяли эпохи в окрестностях индивидуальных пиков на ПСС, после чего вычисляли оптимальные пространственные проекции (пространственные фильтры) по критерию Фишера [23]. Данный метод позволяет снизить размерность ЭЭГ-сигнала, повысить отношение сигнал/шум для изучаемых компонентов и в большой степени изолировать два компонента друг от друга для независимого их изучения [23]. Описываемый далее анализ проводили для сигналов этих двух выделенных пространственных компонентов (один для N1 и один для P300). Сигналы компонентов нормировали на стандартное отклонение всех нецелевых эпох у каждого испытуемого (далее — «усл. ед.» вместо мкВ).
Для каждого режима у испытуемого формировался набор целевых и нецелевых эпох для каждого компонента — N1 и P300. Для получения усредненных классическим способом ПСС все эпохи одного испытуемого усредняли для каждого режима отдельно для класса целевых и нецелевых в наборах N1 и P300. Амплитуду этих компонентов рассчитывали как минимальное/ максимальное значение сигнала в окнах [100 350] и [200 500] мс соответственно, а латентности пиков определяли как время максимума или минимума относительно начала стимула.
Кроме этого, для анализа вариативности ПСС латентности компонентов N1 и P300 рассчитывали в отдельных неусредненных целевых эпохах как локальный минимум или максимум в тех же временных окнах, что и для ПСС. Амплитуда компонента была равна значению сигнала для найденных в этой эпохе латентностей. Для оценки вариативности латентностей пиков ПСС рассчитывали среднее абсолютное отклонение (mean absolute deviation, MAD) в каждом режиме у каждого испытуемого, а для оценки влияния вариативности на амплитуду ПСС перед усреднением эпохи сдвигали по времени на величину разности средней латентности и латентности компонента в конкретной эпохе.
Для оценки эффектов вариативности ПСС на эффективность распознавания команд в ИМК рассчитывали точность классификации в следующих вариантах: для обычных ЭЭГ-каналов (стандартный подход) и для выделенных пространственных компонентов N1 и P300. Причем для последнего варианта классификацию вычисляли как без выравнивания по латентности пиков, так и с выравниванием — с коррекцией только для N1 либо только для P300, а также с коррекцией для обоих пиков N1 и P300. В качестве признаков для линейного дискриминанта Фишера использовали значения амплитуд сигнала в окне [0 600] мс (каждая 10-я точка) в 11 каналах ЭЭГ-отведений Cz, CP1, CP2, P3, Pz, P4, PO7, POz, PO8, O1, O2 или в двух каналах для N1 и P300 соответствующих пространственных компонентов. Точность классификации оценивали методом кроссвалидации при последовательном тестировании на данных одного блока (все эпохи, относящиеся к одной целевой ячейке) классификатора, обученного на остальных 14 блоках. Точность классификации определяли как долю верно распознанных букв (из 15). Причем при тестировании рассчитывали точность для разного числа стимульных последовательностей — от одного до пяти. Такой расчет точности производили для каждого режима, испытуемого и способа формирования признаков сигнала.
Статистический анализ проводили в MATLAB с использованием обобщенных линейных моделей со смешанными эффектами. В качестве случайного фактора использовали один постоянный коэффициент для переменной «испытуемый», а экспериментальные условия («активное внимание», «когнитивная нагрузка», «полупустая матрица», «перемешивание элементов») и режимы коррекции латентности служили фиксированными эффектами. Значимость фиксированных эффектов оценивали с помощью F-теста. Исследовали следующие зависимые переменные: амплитуду, латентность, MAD латентностей N1 и P300, а также точность классификации. Для точности классификации использовали биномиальную регрессию, а для остальных показателей — линейную.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
На рис. 2 представлены выделенные пространственные компоненты N1 и P300 и соответствующие им паттерны (топографическое распределение весовых коэффициентов). Компонент N1 со средней латетностью 187 мс имел типичную латерально-затылочную локализацию, а P300 с латентностью 315 мс — центрально-теменную локализацию.
В табл. 1 приведены усредненные по группе значения амплитуды компонентов N1 и P300 в каждом из режимов — как до коррекции латентностей в индивидуальных эпохах, так и после коррекции. Амплитуды N1 и P300 в усредненных ПСС увеличивались после коррекции: F(1,258) = 581,24; p = 0,00000. Фактор наличия активного внимания оказался значим для амплитуды N1, которая увеличивалась по сравнению с пассивным вниманием к стимулу (режим 1): F(1,36) = 17,87; p = 0,00015. Амплитуда N1 увеличивалась для фактора «полупустая матрица»: F(1,110) = 16,10; p = 0,00011 и «когнитивная нагрузка»: F(1,110) = 48,49; p = 0,00000. Амплитуда P300 увеличивалась для фактора «когнитивная нагрузка»: F(1,110) = 18,01; p = 0,00005 и уменьшалась для фактора «перемешивание»: F(1,110) = 4,72; p = 0,032.
Средние латентности компонентов N1 и P300, а также показатель вариативности латентности (MAD) представлены в табл. 2. Латентности N1 и P300 уменьшались для фактора «полупустая матрица»: F(1,110) = 45,87, p = 0,00000 и F(1,110) = 24,51, p = 0,00000 соответственно. Латентность N1 увеличивалась также для фактора «перемешивание»: F(1,110) = 5,17; p = 0,025. Наличие активного внимания приводило к снижению показателя MAD компонента N1 по сравнению с режимом пассивного внимания: F(1,36) = 1,60; p = 0,0016. Показатель MAD для N1 уменьшался для фактора «полупустая матрица»: F(1,110) = 12,43; p = 0,00061 и «когнитивная нагрузка»: F(1,110) = 11,56; p = 0,00094. Для P300 наблюдали увеличение MAD для фактора «перемешивание»: F(1,110) = 4,80; p = 0,03056.
В табл. 3 представлены результаты средней точности классификации во всех режимах при использовании разных способов формирования признаков сигнала: каналы ЭЭГ-отведений и каналы для N1 и P300 соответствующих пространственных компонентов, для которых производили или не производили коррекцию латентности. Данные в таблице приведены для минимального числа (1 и 2) стимульных последовательностей на каждую букву, когда точность еще низкая и различия между режимами выше. Для фактора «когнитивная нагрузка» выявлена тенденция к увеличению точности: F(1,108) = 3,39; p = 0,068.
На рис. 3 представлена средняя точность классификации для разных способов формирования признаков сигнала и разного числа стимульных последовательностей. При использовании пространственных фильтров (только двух векторов данных — для N1 и P300) без коррекции латентности точность была наименьшей и была даже ниже, чем при использовании обычных 11 отведений ЭЭГ: F(1,3284) = 5,99, p = 0,014. Коррекция латентности только для пространственного компонента N1 давала более высокую точность, но она не отличалась значимо от варианта с обычными отведениями ЭЭГ: F(1,3284) = 1,1771, p = 0,28. В то же время коррекция латентности только для пространственного компонента P300 приводила к более высокой точности по сравнению с обычными отведениями ЭЭГ: F(1,3284) = 24,51, p = 0,00000. Наиболее высокие значения точности классификации отмечены при совместной коррекции латентности для N1 и P300 (в каждом из двух соответствующих пространственных компонентов). Точность в этом случае была выше, чем при использовании обычных отведений ЭЭГ: F(1,3284) = 24,29, p = 0,00000, и выше, чем при коррекции только на латентность P300: F(1,3284) = 4,34, p = 0,037 (в последнем случае различия были для 2-й и 3-й стимульных последовательностей: p < 0,05).
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
В нашем исследовании был предложен эффективный подход к анализу вариативности ПСС в технологии ИМК-P300, который позволил выявить ряд факторов, влияющих на характеристики ПСС, а также изучить вклад эффектов вариативности в точность распознавания команд в этом интерфейсе.
Для анализа эффектов вариативности латентности ПСС необходимо детектировать компоненты в единичных (неусредненных) эпохах. Ввиду наличия шума как техногенного, так и физиологического характера процесс этот весьма сложен, поэтому крайне важно максимально использовать всю полезную информацию в сигнале ЭЭГ. Несмотря на то что в некоторых работах эффекты вариативности изучали в рамках ИМК-P300, влияние этих эффектов оценивали в обычных каналах ЭЭГ и применяли только к одному компоненту P300 [17, 24]. В нашей предыдущей работе мы использовали коррекцию латентности двух компонентов — N1 и P300, однако каждый из них анализировали в своем наборе каналов [18]. Более эффективным подходом может быть использование объединенной информации от всех каналов с одновременным анализом нескольких компонентов во всех из них. Например, независимые компоненты, выделенные с помощью ICA, уже использовали авторы работ по изучению вариативности (вне ИМК), однако они анализировали лишь один ранний компонент ПСС [21, 25]. Кроме того, метод ICA не гарантирует выделения интересующих для анализа компонентов. В настоящей работе мы предложили использование пространственных фильтров для выделения двух компонентов — N1 и P300, функционально значимых для ИМК-P300, с последующим анализом эффектов вариативности в них, а не в отдельных каналах ЭЭГ. Несмотря на то что данный метод использовали ранее [23], в том исследовании он служил дополнительным этапом предобработки и выделения признаков сигнала для классификации в ИМК, но никак не был связан с изучением эффектов вариативности ПСС. Выделение пространственных компонентов с целью их независимой коррекции ранее не применялось.
Также использование подхода с пространственными компонентами уменьшает вероятность ошибочной детекции пиков в единичных эпохах по сравнению с использованием сигнала в отдельных ЭЭГ-отведениях, что делает анализ вариативности более объективным.
Существенной частью работы было выявление возможных факторов, влияющих на характеристики ПСС в ИМК-P300. Наличие активного внимания (инструкции эмоционального счета подсветок) вело к росту амплитуды компонента N1, причем механизм такого увеличения, предположительно, включает уменьшение вариативности латентности реакций на отдельные стимулы, поскольку показатель MAD при этом снижался. Ранее в нашей группе уже было показано увеличение амплитуды компонентов ПСС для такой инструкции по сравнению с пассивным вниманием к стимулам в ИМК-P300 [26]. По-видимому, инструкция активного счета стимулов улучшает фиксацию взгляда на целевой позиции в матрице, что важно для компонента N1 [27]. Отсутствие символов во всех ячейках матрицы, по-видимому, также положительно влияет на фиксацию взгляда на целевой ячейке, поскольку в режиме «полупустая матрица» амплитуда N1 увеличивалась с одновременным уменьшением его вариативности. Это согласуется с противоположными эффектами для компонента N1 в условиях, где слежение за целевыми объектами осложнено подвижностью их позиций [18], а также подтверждает взаимосвязь между особенностями работы глазодвигательной системы и вариативностью компонентов ПСС [28].
Постоянная смена символов в ячейках матрицы, вероятно, негативно влияет на внимание к целевому стимулу, о чем говорит уменьшение амплитуды P300 и увеличение его вариативности, а также увеличение латентности N1. Неблагоприятное влияние подобных манипуляций со стимульной средой на ИМК-P300 подтверждается также тем, что испытуемые сообщали о сложностях с выполнением инструкции в режимах с перемешиванием. В то же время интересным и не вполне очевидным результатом является то, что дополнительная когнитивная нагрузка в режимах с перемешиванием элементов (счет согласных при смене букв), напротив, приводила к росту амплитуд N1 и P300, причем для N1 этот эффект был, по крайней мере, отчасти обусловлен снижением вариативности. Известно, что эффекты вариативности единичных ответов усиливаются, когда внимание субъекта распределяется между двумя конкурирующими задачами [29]. Вероятно, в нашей работе когнитивная нагрузка, интегрированная в задачу слежения за целевыми событиями, вызывала, напротив, увеличение внимания, и потому подобные модификации стимульной среды могут быть перспективными для ИМК-P300.
Потенциальную эффективность использования в ИМК факторов, позитивно влияющих на внимание, подтверждает и тенденция к повышению точности классификации целевых стимулов в режимах с когнитивной нагрузкой (табл. 3). Предложенный в нашей работе метод коррекции вариативности не в обычных отведениях ЭЭГ, а в выделенных пространственных компонентах N1 и P300, обеспечил наиболее высокие результаты точности классификации (рис. 2). При этом наибольший прирост точности наблюдался при наименьшем числе стимульных последовательностей (94% против 84%), что подчеркивает ценность этого метода для режимов работы ИМК-P300, обеспечивающих наибольшую скорость выбора команд, и превосходит результаты в работах, где также использовалось выделение пространственных компонентов, но без учета эффектов вариативности [23, 30]. Обращает на себя внимание тот факт, что вклад компонентов N1 и P300 в эффективность классификации не равнозначен: нескорректированный N1 дает больший вклад, чем нескорректированный P300. Однако ввиду большей вариативности P300 коррекция его латентности приводила к значительному увеличению точности, превышавшей как коррекцию только N1, так и использование стандартных отведений ЭЭГ
Ограничением использованного нами подхода пока является то, что в данной работе мы не корректировали латентность в нецелевых эпохах. В перспективе для реализации онлайн-режима ИМК необходимо будет разработать алгоритм, который, к примеру, позволит избегать коррекции малоамплитудных пиков нецелевых эпох.
ВЫВОДЫ
Предложен подход к анализу вариативности латентностей ПСС в выделенных пространственных компонентах ЭЭГ. Использование этого метода в ИМК-P300 позволило добиться более высоких результатов точности классификации команд по сравнению с существующими методами. Кроме того, применение подобного подхода выявило ряд факторов стимульной среды и режимов работы ИМК-P300, влияющих на эффекты вариативности ПСС, а именно, модификации интерфейса, влияющие на уровень внимания пользователя, в том числе сопутствующая основной задаче когнитивная нагрузка, а также упрощающие фиксацию взгляда на целевых объектах, позитивно влияли на амплитуду ПСС и снижение вариативности единичных реакций на стимулы. Полученные результаты дополняют существующие знания о механизмах вариативности латентностей ПСС и дают новые основания для разработки более эффективных систем ИМК.