ОБЗОР
Биометрическая идентификация, основанная на ЭКГ: некоторые современные подходы
1 Лаборатория медицинского приборостроения,Московский физико-технический институт (государственный университет), Московская область, Долгопрудный
2 ООО «Альтомедика», Москва
Для корреспонденции: Астапов Артём Александрович
Институтский пер., д. 9, стр. 7, г. Долгопрудный, Московская область, 141700; ude.hcetsyhp@vopatsa.metra
В современную эпоху технологической оснащенности проблема безопасности имеет особенное значение. Рост различных областей индустрии, сетевой интеграции, бурное развитие информационных технологий заставляют искать новые, в том числе направленные на личность человека способы охраны информации.
Различным приложениям часто необходимо идентифицировать человека — отождествить неизвестную личность с известной из базы данных, сравнить «один ко многим», а также верифицировать человека, т. е. проверить, является ли этот человек тем, за кого себя выдает, сравнить «один к одному» с определенным образцом. Такие задачи встречаются повсеместно, начиная от компьютерных систем и оканчивая системами предоставления различного уровня допуска на закрытых или корпоративных объектах. Отдельный интерес представляют бытовые задачи идентификации членов семьи. Традиционные парольные и идентификационные системы имеют ряд недостатков. Пароль можно забыть, выведать, такие системы легко взломать. Идентификационный «ключ» нужно всегда носить с собой. Подобное неудобство использования в совокупности с высокими шансами для злоумышленника завладеть паролем или физическим идентификатором и, кроме того, невозможность идентифицировать человека без определенных физических носителей заставляют искать новые подходы к данной проблематике.
Биометрия (с греч. «измерение жизни») предполагает систему распознавания человека по одной или нескольким физиологическим или поведенческим чертам [1]. Биометрическими характеристиками могут выступать различные черты, которые в той или иной степени удовлетворяют следующим параметрам: универсальность, уникальность, постоянство, измеряемость, производительность, приемлемость, устранение (простота использования, замены) [2].
В настоящее время используют такие биометрические характеристики, как отпечаток пальца, лицо, радужная оболочка, геометрия ладони, голос, ДНК, термограмма лица, подпись, походка, форма губ и т. д. [3, 4, 5, 6, 7, 8, 9, 10, 11, 12]. Преимущества и недостатки данных характеристик связаны с параметрами, перечисленными выше [13]. Так, например, при идентификации или верификации по ДНК почти невозможно совершить ошибку, а образцы можно использовать и в криминалистике, однако этот метод требует специального лабораторного оборудования. Аналогично с отпечатками пальцев: несмотря на то, что прибор для регистрации может быть достаточно миниатюрным в отличие от используемого при определении по ДНК, отпечатки со временем или под действием других факторов могут измениться. Таким образом, применение различных биометрических идентификаторов определяется в первую очередь целями, а также ограничениями и ресурсами в рамках конкретной задачи.
В последнее время ученые сосредоточены на разработке нового вида биометрического распознавания, а именно на такой физиологической характеристике человека, как электрическая активность сердца. В частности, электрокардиограмма (ЭКГ) становится подходящим методом для приложений, требующих защиты средней степени, в связи с простотой получения сигнала и его дешевизной, а также сложностью подделки и недобровольного извлечения. Индивидуальность ЭКГ складывается под влиянием различных физиологических факторов, таких как анатомия сердца, вес, пол, размер грудной клетки, возраст, состояние здоровья и других. Со временем или под действием болезней сердца его электрическая активность меняется, и в качестве долгосрочного биометрического параметра использовать ЭКГ не представляется разумным. Так, например, канадская компания Bionym анонсировала разработку электронного браслета Nymi, который будет снимать электрокардиограмму с пользователя каждый день, верифицировать его и допускать до определенных объектов инфраструктуры (мобильный телефон, компьютер, номер в отеле, машина и т. п.). В целях идентификации наиболее вероятно применение ЭКГ при работе с различными базами данных — развитие телемедицинских технологий позволяет накапливать огромные массивы информации, в том числе данных ЭКГ пациентов. В случаях, когда операторы или врачи некорректно заполняют данные о пациенте (неточно указывают фамилию, год рождения и т. д.), идентификация подобных записей позволила бы лучше следить за динамикой болезни пациентов.
Еще одна возможная сфера применения находится на пересечении небольшого и постоянного числа пользователей определенных приборов для снятия ЭКГ: например, в различных медицинских учреждениях для удобства пациентам достаточно будет просто снять ЭКГ, а идентификационная система сама решит, кто именно сделал запись. Идентификация также способна облегчить пользование приборами для снятия ЭКГ дома: на рынок уже вышли гаджеты в виде чехла к телефону, способные снимать электрическую активность сердца пациента и отправлять ее врачу по сети Интернет.
Ниже будут рассмотрены основные принципы построения биометрических идентификационных систем, различные подходы к идентификации человека по ЭКГ. Описано разнообразие математических аппаратов. Представлены результаты основных работ.
Формирование сигнала ЭКГ
Электрокардиограмма — кривая изменения во времени суммарного электрического потенциала, возникающего в сердечной мышце за счет движения ионов через мышечную мембрану [3]. В практической медицине метод ЭКГ относят к одному из самых распространенных, что объясняется не только количеством сердечно-сосудистых заболеваний, но и высокой степенью информативности и верного диагностирования заболевания.
В кардиологической практике ЭКГ чаще всего измеряется в нескольких отведениях, которые несут информацию о разности потенциалов между двумя определенными точками электрического поля сердца с установленными в них электродами. Каждое из отведений преимущественно отражает состояние участков сердечной мышцы определенной локализации.
Основные принципы построения систем идентификации человека по ЭКГ
Процессу идентификации присущи следующие стадии:
- сбор исходных данных;
- предобработка сигнала (фильтрация и т. д.);
- извлечение характерных признаков, их обработка и создание шаблона;
- сравнение поступающего шаблона с базой данных сформированных шаблонов.
После этого принимают решение об идентификации, используя разнообразные алгоритмы классификации.
Однако самая трудная проблема при идентификации — это выделение признаков, которые действительно характеризуют объект. Именно здесь исследователи используют различные подходы. Основной метод состоит в том, что множество таких признаков (дескрипторов) формирует вектор, который можно сравнивать с другими, используя различные математические методы.
Существуют подходы, основанные на выделении таких параметров, как амплитуды, углы, вертикальные и горизонтальные составляющие сегментов ЭКГ-сигнала [15, 16].
Другой подход связан с выделением аналитических признаков, в качестве которых выступают коэффициенты разложения сигнала в различных базисах: Фурье [17], вейвлеты, коэффициенты линейного предсказания [18] и т. д.
На самом этапе идентификации применяют стандартные методы классификации. Самый простой из них — метод «к ближайшему центру». Он помечает новый входной вектор признаков меткой того класса, который дает минимальное расстояние до центра этого класса. Другой распространенный метод — «К-ближайших соседей» — основан на принципе присвоения объекта самому распространенному классу среди соседей данного элемента. Для распознавания также часто используют метод опорных векторов и нейронные сети [19].
Сравнение и результаты
Одной из первых научных работ, показавшей возможность использования ЭКГ в целях идентификации, стала статья коллектива авторов под руководством L. Biel [15]. В ходе экспериментов на 20 здоровых испытуемых было продемонстрировано, что для качественной идентификации при снятии ЭКГ достаточно использовать одно отведение из стандартных двенадцати.
В качестве основы для анализа ЭКГ-сигнала взяли 30 параметров, характеризующих форму сигнала, которые обычно используют для диагностики заболеваний. Было проанализировано, насколько каждый из них коррелирует друг с другом, что позволило сократить число параметров и выбрать наиболее индивидуальные. Самой успешной признали комбинацию, где каждого индивидуума характеризовал (классифицировал) набор (вектор) из восьми показателей (переменных) (рис. 1). Для учета вариативности изменения параметров у каждого человека наборы этих показателей брали в различное время.
Для идентификации использовали так называемый метод формального независимого моделирования аналогий классов SIMCA (Soft Independent Modeling of Class Analogy), широко используемый, например, в хемометрике для классификации спектроскопических данных, а также позволяющий работать с большим числом параметров [20]. Задачи и алгоритмы классификации часто перекликаются с задачами идентификации, если представить требуемый для идентификации объект некоторым классом.
Первым шагом в SIMCA служит еще более распространенный метод главных компонент PCA (Principal Component Analysis), который, по сути, является математическим способом понижения размерности или сжатия данных [21]. В результате перехода от большого количества переменных к новому представлению со значительно меньшей размерностью часто удается упростить данные на порядки, например от 1000 переменных перейти всего к двум. При этом не происходит потери данных, все переменные учитываются. В то же время несущественная для анализа часть данных определяется и отделяется как шум. Найденные главные компоненты дают представление о скрытых переменных, управляющих устройством данных. Таким образом, пространство из показателей ЭКГ, характеризующее каждого человека, проецируется на направление главных компонент, в данной работе — на плоскость, каждая точка которой соотносится с определенным индивидуумом или, используя математический язык, классом. В этом пространстве уже можно проводить классификацию.
По методу SIMCA после построения PCA-декомпозиции вычисляют расстояния между классами, а также расстояния от каждого класса до нового объекта. В качестве таких метрик используют две величины. Расстояние от объекта до класса рассчитывают как среднеквадратичное значение остатков, возникающих при проецировании объекта на класс. Вторая величина определяет расстояние от объекта до центра класса и вычисляется как размах (квадрат расстояния Махаланобиса). В этом пространстве задают классификационное правило, и появляется возможность для идентификации.
Результаты идентификации человека по ЭКГ в ходе работы L. Biel зависели от числа параметров ЭКГ, которые брали для исследования. В среднем ученые достигали 49 верных идентификаций из 50.
Следующей работой стало исследование S. A. Israel совместно с коллегами [16]. Было установлено, что психологическое состояние испытуемых не влияло на результат идентификации. Примечательно, что в качестве метода редуцирования пространства исследуемых параметров авторы использовали алгоритм линейного дискриминантного анализа LDA (Linear Discriminant Analysis). Работу алгоритма LDA в сравнении с алгоритмом метода главных компонент, а также в их комбинации, исследовал Y. Wang с коллегами [22].
В своей работе Y. Wang также использовал координатные параметры ЭКГ (амплитуды, углы, расстояния) в качестве основы для классификации, однако отличительной особенностью было выравнивание каждого комплекса по R-пику (рис. 2).
Метод LDA — один из старейших статистических методов [23], который применяют для нахождения линейных комбинаций признаков, наилучшим образом разделяющих два объекта или более. Как и PCA, его часто используют в качестве классификатора или сокращения размерности. Изначально Y. Wang исследовал, какой из методов наиболее эффективен в качестве алгоритма, понижающего число характеристик ЭКГ-сигнала в разрезе двух простейших классификаторов: метод «K-ближайших соседей» (класс классифицируемого объекта — это класс, наиболее часто встречающийся среди K-ближайших соседей) и метод «к ближайшему центру» (чем ближе классифицируемый объект расположен к «центру тяжести» группы объектов известного класса, тем вероятнее он принадлежит данному классу). Было показано, что наилучший результат дает использо- вание алгоритма главных компонент при классификации методом «K-ближайших соседей». При совместном иерархическом применении алгоритмов LDA и PCA Y. Wang достиг 98,9 % точности распознавания. В экспериментах участвовали 13 испытуемых, идентификацию проводили несколько раз в разное время и в различных условиях.
Отдельный интерес представляют методы, основанные на выделении аналитических признаков, а также классификация посредством нейронных сетей. Такое исследование было проведено в 2010 г. группой ученых под руководством J. L. Ch. Loong [18]. У 15 испытуемых регистрировали ЭКГ в одном грудном отведении. Алгоритмами для аналитического представления сигналов ЭКГ и дальнейшего сравнения их работы между собой выступали два базиса: вейвлеты и коэффициенты линейного предсказания.
В основании алгоритма декомпозиции вейвлет-пакетов WPD (Wavelet Packet Decomposition) лежит термин «вейвлет», который ввели А. Гроссман и Ж. Морле в середине 80-х гг. прошлого века в связи с анализом свойств сейсмических и акустических сигналов [24]. Алгоритмы, основанные на вейвлет-преобразованиях (wavelet transform), также используют для анализа электрокардиограмм. Вейвлет-преобразование является инструментом, разбивающим данные на составляющие с разными частотами. Каждую из частот затем изучают с необходимым разрешением. Таким образом, вейвлет-преобразование — это инструмент для частотно-временной локализации особенностей сигнала. К достоинствам метода WPD относят высокую скорость декомпозиции, универсальность и возможность менять уровень декомпозиции. Однако метод не поддается автоматизации: для нахождения наилучшей декомпозиции необходимо вручную рассматривать несколько уровней WPD. Другой недостаток связан с основой вейвлет-анализа — необходимостью выбора базисного вейвлета в зависимости от характера исходного временного ряда.
J. L. Ch. Loong и соавт., используя метод WPD, подвергали сигнал 5-кратной обработке вейвлетами Добеши 4-го порядка, получив в общей сложности 50 параметров, которые использовали в качестве набора признаков для идентификации.
Алгоритм кодирования с линейным предсказанием LPC (Linear Predictive Coding) обычно применяют при моделировании различных параметров человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала [14]. Алгоритмы LPC исторически используют для изучения работы сигнала речевого тракта, т. е. анализа, распознавания и обработки человеческой речи. Коэффициенты LPC позволяют непосредственно предсказать значения параметров сигнала как линейную функцию предыдущих сегментов. В целях идентификации по ЭКГ к сигналу применяли алгоритмы LPC и в качестве точек для дальнейшего исследования брали первые 40 параметров спектра LPC. Различия такого спектра, взятого по электрокардиограмме, для 4 человек представлены на рис. 3. В качестве классификатора использовали искусственную нейронную сеть (ИНС) с помощью метода обратного распространения ошибки. Идея ИНС возникла как попытка описать процессы восприятия информации, происходящие в мозге человека. Как и мозг человека, ИНС состоит из множества соединенных друг с другом элементов — нейронов, которые имитируют нейроны головного мозга. На рис. 4 представлена базовая структура такой сети.
Каждый нейрон в нейронной сети осуществляет преобразование входных сигналов в выходной и связан с другими нейронами. Входные нейроны формируют так называемый интерфейс нейронной сети. Информация вводится в нейронную сеть через входной слой, принимающий сигналы. Все слои нейронной сети обрабатывают сигналы до тех пор, пока они не достигнут выходного слоя, генерирующего выходные сигналы.
Задача ИНС — преобразование информации требуемым образом. Для этого сеть предварительно обучается. При обучении используют идеальные (эталонные) значения пар «входы–выходы» или «учителя», который оценивает поведение нейронной сети. Для обучения используют так называемый обучающий алгоритм. Ненастроенная нейронная сеть не способна отображать желаемого поведения. Обучающий алгоритм модифицирует отдельные нейроны сети и веса ее связей таким образом, чтобы поведение сети соответствовало желаемому поведению. Основная идея метода, применявшегося в исследовании, состоит в распространении сигналов ошибки от выходов сети к ее входам в направлении, обратном прямому распространению сигналов в обычном режиме работы.
При сравнении работы двух вышеописанных подходов алгоритм кодирования с линейным предсказанием показал лучшие результаты против метода вейвлет-декомпозиции со значениями точности распознавания 99,5 и 91,5 % соответственно [18].
ВЫВОДЫ
Возможности идентификации человека по ЭКГ пока недостаточно изучены, однако в настоящее время исследования в данной области продолжают активно проводиться. Возрастающее число подобных экспериментов по всему миру позволяет считать такой биометрический параметр, как электрическая активность сердца, перспективным для исследования. В различных подходах в основном широко изучается область выделения индивидуальных характеристик ЭКГ; единые стандарты и наиболее эффективные методы еще предстоит разработать. Однако имеющиеся исследования демонстрируют весьма обнадеживающие результаты для продолжения работы в рассматриваемой области.