ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Высокоскоростной коммуникационный интерфейс мозг-компьютер на основе кодированных зрительных вызванных потенциалов
1 Биологический факультет, Московский государственный университет имени М. В. Ломоносова, Москва, Россия
2 Механико-математический факультет, Московский государственный университет имени М. В. Ломоносова, Москва, Россия
Для корреспонденции: Рафаэль Каренович Григорян
ул. Ленинские горы, д. 1, стр. 12, г. Москва, 119234; moc.liamg@oib.hparrg
Вклад авторов в работу: Р. К. Григорян — планирование и проведение эксперимента, обработка данных, подготовка статьи; Д. Б. Филатов — планирование эксперимента, разработка программного обеспечения (ПО), подготовка статьи; А. Я. Каплан — постановка задачи, планирование эксперимента, руководство проведением исследования, подготовка статьи.
Интерфейс мозг-компьютер (ИМК) — это технология, позволяющая пациентам с нарушениями речи и движений управлять компьютером посредством анализа коррелятов нервной деятельности. Использование ИМК требует от пользователя фокусирование внимания либо на внутренних образах, например, движениях собственной конечности, либо на экранных объектах, в частности, нужных в данный момент буквах, и выделения специфических ЭЭГ-маркеров этих ментальных действий [1–3]. Интерфейсы на основе зрительных потенциалов, вызываемых, к примеру, подсветками экранных объектов, позволяют детектировать по ЭЭГ большое число команд, соответствующих числу стимульных экранных объектов. В традиционном исполнении этой технологии в качестве ЭЭГ-маркера внимания пользователя к нужному ему объекту используют компонент П300, возникающий на подсветку именно этого объекта, например нужной буквы [4, 5]. В последнее время подобные нейроинтерфейсы входят в практику медицинской реабилитации в качестве устройств для замещения коммуникации у пациентов с тяжелыми нарушениями речи и движений [6]. Эти системы обеспечивают достаточно высокую надежность выбора команд когнитивно сохранными пациентами, однако имеют недостаток — сравнительно низкую скорость работы. Так, в сравнительном исследовании работы ИМК у пациентов с боковым амиотрофическим склерозом и у здоровых испытуемых было показано, что скорость печати текста не поднималась выше 2–3 букв в минуту при 14-кратном повторе каждого целевого объекта. При достигнутой обеими группами точности больше 95% это соответствует скорости передачи информации 11–14 бит/мин [7]. Такая низкая скорость передачи информации посредством ИМК не может обеспечить комфортное использование нейроинтерфейсов на основе компонента П300 даже здоровыми людьми. Новые перспективы в повышении скорости нейроинтерфейсов открывает использование в ИМК кодированных зрительных потенциалов (КЗВП) — совокупной реакции ЭЭГ на специальные последовательности подсветок нужного экранного объекта с неравными интервалами. В результате стимуляции такой последовательнстью в ЭЭГ регистрируется зрительный вызванный потеницал стабильного состояния. Этот вызванный потенциал синхронизирован по фазе со стимуляцией, так же как и при стимуляции с постоянной частотой, которая лежит в основе ИМК на основе SSVEP (steady-state visual evoked potentials). За счет синхронизации по фазе вызванный потенциал до некоторой степени сохраняет свойства стимульной последовательности, в частности цикличность, автокорреляционные и спектральные характеристики. Если использовать для презентации нескольких зрительных стимулов несколько разных последовательностей, которые будут минимально коррелировать между собой, то можно различать вызванные потенциалы, соответствующие разным стимулам при помощи корреляционного анализа. Существуют различные наборы бинарных последовательностей с подходящими кросс-корреляционными свойствами, такие как коды Голда, коды Баркера и m-последовательности. Всех их применяют для разделения сигналов на одной несущей частоте в различных приложениях, в частности в мобильной связи и спутниковой навигации.
M-последовательность — это псевдослучайная двоичная последовательность, одной из особенностей которой является наличие единственного пика автокорреляционной функции при нулевом сдвиге. Одна m-последовательность способна при циклическом сдвиге породить несколько последовательностей, не скореллированных между собой. Эта особенность облегчает ее использование в ИМК при большом количестве стимулов, так как позволяет сократить длительность обучения классификатора. Для различения вызванных потенциалов, соответствующих разным стимулам, необходимо собрать обучающую выборку с потенциалами, возникающими в ответ на каждый стимул. При использовании для каждого стимула своей бинарной последовательности, порожденной одной m-последовательностью, достаточно получить эталонный вызванный потенциал только на нее, после чего обнаруживать целевой стимул по сдвигу пика корреляционной функции между пространственно отфильтрованными участками записываемой ЭЭГ и эталонным вызванным потенциалом. В результате продолжительность обучения не зависит от количества разных стимулов, что позволяет использовать достаточное для печати текста количество стимулов.
С помощью канонического корреляционного анализа в ЭЭГ можно при небольшом числе повторов циклов активации стимулов (не более 2–3) с высокой надежностью обнаружить короткие эпизоды кодированных вызванных потенциалов, синхронных с подсветками нужного на данный момент экранного объекта. Такие ИМК могут обеспечивать скорость передачи информации более 100 бит/мин [8]. Кодированные вызванные потенциалы могут быть получены как на ЭЭГ, так и на электрокортикограмме [9] и использоваться для оптимизации работы ИМК с учетом потенциалов, связанных с ошибками [10], а также с использованием вариаций цветовой гаммы в стимульной среде [11].
С целью поиска оптимальных режимов кодированных подсветок экранных объектов в ИМК в настоящей работе тестировали работу оператора ИМК при различных последовательностях подсветок стимулов, а также при разной скорости их подачи.
МАТЕРИАЛЫ И МЕТОДЫ
Испытуемые
В исследовании приняли участие 15 здоровых добровольцев (7 женщин и 8 мужчин) в возрасте 18–30 лет. Критерии включения пациентов в исследование: отсутствие истории неврологических заболеваний, в том числе эпилепсии; нормальное или скорректированное зрение. Критерии исключения: иной возраст; неврологические заболевания в анамнезе; проблемы со зрением.
Регистрация ЭЭГ
Запись биопотенциалов производили с помощью усилителя ЭЭГ «Нейровизор БММ» (Медицинские Компьютерные Системы; Россия). Использовали 22 отведения (FCz, C3, C1, Cz, C2, C4, CP3, CP1, CPz, CP2, CP4, P5, P3, Pz, P4, P6, PO3, POz, PO4, O1, Oz, O2) с AFz в качестве заземляющего электрода и двух усредненных ушных электродов в качестве референта. Перед записью производили проверку межэлектродного сопротивления, запись начинали после того, как сопротивление было доведено до значений не более 10 КОм. Частота дискретизации составляла 500 Гц.
Экспериментальная установка
Управление экспериментом производили с компьютера с помощью специально разработанного авторами программного обеспечения (ПО) на языке С++. Стимулы демонстрировали испытуемому на 24-дюймовом мониторе с частотой обновления 120 Гц. Испытуемый располагался в кресле на расстоянии примерно 60 см от монитора. Для обеспечения синхронности записи ЭЭГ и представления стимулов был использован фотодатчик.
Визуальная среда
Испытуемому предъявляли визуальную среду, состоявшую из 32 квадратных ячеек с буквами на черном фоне, организованными в виде таблицы 4 × 8. В качестве стимуляции использовали смену цвета стимула ячейки с черного на белый.
Алгоритм смены цвета определяли m-последовательностью длиной 63 бита. Каждая ячейка с буквой меняла цвет в соответствии со своей m-последовательностью, полученной из базовой путем последовательного циклического сдвига на 2 бита. Таким образом, последовательность активаций первой ячейки была базовой, вторая была сдвинута на 2 бита, десятая на 18 и так далее. Всего были использованы две базовые m-последовательности: базовая — [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0] и инвертированная — [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1].
Других m-последовательностей длиной 63 бита, не являющихся циклическими сдвигами этих, нет. Инвертированная последовательность аналогична базовой с точки зрения автокорреляционных свойств, но порождает существенно отличающуюся зрительную стимуляцию.
В ходе эксперимента испытывали четыре режима работы ИМК, различавшихся самими m-последовательностями и скоростью стимуляции. В первых двух режимах стимуляции использовали, соответственно, базовую и инвертированную последовательность. Период составлял 1 с. В третьем режиме («медленном») использовали базовую последовательность с периодом в 2 с, а в четвертом («быстром») — с периодом в 500 мс.
Таким образом, длительность реализации одного бита в белом и черном цветах для стандартной, быстрой и медленной скоростей стимуляции составляла примерно 16, 8 и 32 мс соответственно.
Структура исследования
Каждый испытуемый принял участие в четырех экспериментальных сессиях. После инструктажа и установки электродов случайным образом определяли порядок режимов в исследовании. Каждый режим начинался с этапа обучения классификатора, для чего испытуемому предлагали смотреть на один из стимулов в течение 40 полных периодов предъявления последовательности. После этого испытуемый должен был, в заранее определенном порядке концентрируясь на стимулах, ввести 32 команды. Для ввода команды нужно внимательно смотреть на определенную букву и концентрироваться на ее подсветках. Через несколько секунд система дает ответ, который может быть как правильным, так и неправильным, после чего стимуляцию останавливают. После перерыва в несколько секунд она начинается снова, при этом испытуемый пытается ввести другую команду.
Решение о вводе команды принималось при достижении классификатором определенного порога. Точность выбора команд определяли как соотношение правильно введенных команд к общему количеству попыток ввода.
Классификация паттернов
Канонический корреляционный анализ позволяет получить веса каналов для пространственной фильтрации ЭЭГ и выделения существенного отклика на стимульную последовательность. Веса, полученные в результате анализа ЭЭГ, записанные в режиме обучения, используют для уменьшения размерности сигнала. Результатом этапа обучения является одноканальный усредненный по 40 полным периодам сигнал отклика на m-последовательность. При работе онлайн после поступления одномерного сигнала, соответствующего предъявлению полной m-последовательности, строится его корреляционная функция с сигналом, полученным при обучении. Выбранная пользователем команда определяется по смещению пика этой корреляционной функции. Для определения номера целевого стимула достаточно разделить временной сдвиг максимума корреляционной функции на время реализации одного бита и сдвиг между последовательными стимулами.
Обработка результатов
Обработку результатов производили с помощью пакета scipy 1.1.0 [12]. Для построения корреляционных карт применяли нормализованную кросс-корреляцию. Для попарных сравнений применяли критерий Уилкоксона с поправкой Хольма–Шидака на множественные сравнения.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
Оценка точности классификации и скорости передачи информации
Медианная точность выбора команд в ходе эксперимента достигала 1 в медленном режиме с периодом m-последовательности в 2 с (рис. 1). В режимах с базовой и инвертированной m-последовательностью точность составила, соответственно, 0,96 и 0,95. В быстром режиме медианная точность составила 0,33. Это делает его единственным режимом, точность работы в котором статистически значимо отличается от всех остальных при использовании поправки на множественное сравнение (р < 0,05). Однако в этом режиме у одного испытуемого была достигнута точность 0,96. Такой результат нельзя объяснить случайными причинами, так как это число является результатом ввода 32 команд.
Важной характеристикой ИМК, помимо точности, служит скорость ввода команд. Для режимов с периодом m-последовательности в 1 с медианное время, которое требовалось для определения одной команды, составляло 2 с. Для медленного режима этот показатель составил 3,5 с, а для быстрого — 1,2 с.
Интегративным показателем качества работы ИМК, который объединяет точность и скорость выбора команд, служит скорость передачи информации. В данной работе она рассчитана по определению Шеннона, примененного для нейрокомпьютерных интерфейсов [13]. Медианная скорость передачи информации в режимах с базовой и инвертированной последовательностями составила 141 и 142 бит/мин, в медленном режиме 93 бит/мин. Самый низкий показатель скорости передачи информации был достигнут в быстром режиме — 37 бит/мин. Это вызвано низкой точностью выбора команд. Примечательно, что в этом же режиме у единственного пользователя, который смог точно вводить команды, достигнут и самый высокий показатель — 287 бит/мин при времени ввода команд, составившем 1 с, и точности, равной 0,96. Скорость передачи информации в режиме с периодом m-последовательности в 1 с значимо отличалась от медленного режима (Z = 2,7; p = 0,019).
Форма вызванных потенциалов и топографическое распределение вызванной активности
На рис. 2 представлена восстановленная для m-последовательности с нулевым сдвигом форма кодированных вызванных потенциалов, усредненных относительно первого бита последовательности.
В качестве количественной характеристики была использована корреляция между усредненным вызванным потенциалом и одиночными потенциалами, соответствующими одиночным m-последовательностям. На рис. 3 отражены амплитудные карты максимальных значений нормализованных кросс-корреляций между усредненными вызванными потенциалами и реакциями на одиночные последовательности.
Заметно, что вызванные потенциалы демонстрируют максимальную степень сходства между собой в затылочных отведениях. Так, во всех режимах, в которых была достигнута высокая точность выбора команд, самая высокая степень корреляции выражена в отведении Oz. Максимальная корреляция выявлена в 8 каналах: P4, P6, PO3, POz, PO4, O1, O2, Oz. Абсолютные значения максимумов кросс-корреляций не демонстрируют значимых различий между режимами при сравнении в соответствующих каналах. Менее четкая локализация вызванных потенциалов в быстром режиме, возможно, служит одной из причин худших результатов, достигнутых испытуемыми.
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Результаты исследования ИМК на основе КЗВП позволяют продемонстрировать ряд интересных закономерностей, которые играют роль в построении качественного медицинского нейрокоммуникатора для широкого круга пациентов. В первую очередь, это соотношение между скоростью, точностью ввода и общей скоростью передачи информации в конкретной модификации интерфейса. Очевидно, что главной характеристикой ИМК для пользователя является скорость передачи информации. Полученные данные свидетельствуют о том, что скорость передачи информации у ИМК данного типа в несколько раз выше, чем у традиционного для нейрокоммуникации ИМК-Р300, что создает перспективу внедрения этого типа интерфейсов в клиническую практику. Скорость передачи информации в первых трех режимах находится в привычных рамках для этого типа интерфейсов [8, 14]. Важным фактом является необычно высокая скорость передачи информации в 287 бит/мин, достигнутая одним из пользователей в быстром режиме, который для большинства испытуемых вызвал большие затруднения. Несмотря на уникальность в рамках выборки, этот результат дает повод к разработке ИМК с тонкой подстройкой параметров под индивидуальные особенности пользователей, чтобы найти комбинации параметров (в частности, скорости стимуляции), оптимальные для каждого конкретного пациента. Такой подход может помочь преодолеть известные проблемы переноса лабораторных разработок с участием здоровых испытуемых в клиническую практику [15], а также так называемую ИМК-неграмотность, когда испытуемые оказываются неспособными освоить работу в ИМК [16]. Эти проблемы предлагается решать разными способами, в том числе модификацией тренировочной стадии [17] и индивидуализацией интерфейсов. Тонкая настройка несущей частоты m-последовательности и ее периода могла бы помочь найти оптимальные значения, которые максимизируют скорость передачи информации для каждого конкретного пользователя. В частности, подобный подход уже используется для настройки ИМК-Р300 [18]. К сожалению, современные мониторы, даже с высокой частотой обновления, не позволяют достаточно гибко настраивать частоту периода стимульной последовательности для ИМК с кодированными вызванными потенциалами. В настоящей работе, к примеру, оказалось невозможным продемонстрировать пользователю последовательность с периодом в 0,8 с.
Кажется целесообразным предложить создание специализированного устройства для демонстрации стимулов. Такие попытки для нейроинтерфейсов на основе кодированных вызванных потенциалов уже были предприняты [19], но конкретные представленные реализации обеспечивают низкую скорость передачи информации за счет малого количества стимулов.
ВЫВОДЫ
Результаты настоящего исследования свидетельствуют о том, что для оптимизации работы испытуемых в ИМК требуется тщательный подбор параметров в зависимости от индивидуальных особенностей пользователей. Было продемонстрировано, что инверсия кодирующей стимульной последовательности не влияет на точность выбора команд испытуемыми, а это свидетельствует о возможности использования режимов прямой и инвертированной стимуляции с равным успехом. В то же время более быстрые режимы работы ИМК с последовательностями в два раза более короткими оказались неоптимальными для большинства испытуемых. Обнаруженные в работе значительные индивидуальные различия показателей точности и скорости передачи информации позволяют предположить, что возможна оптимизация ИМК за счет более тонкой настройки ИМК под конкретного пациента.