본문 바로가기

인공지능/논문 번역

[논문 번역] 2016/Real-Time Patient-Specific ECG Classification by 1-D Convolutional Neural Networks - 미완성

 

 

Real-Time Patient-Specific ECG Classification by 1-D Convolutional Neural Networks - IEEE Journals & Magazine

 

ieeexplore.ieee.org


Abstarct

이 논문은 빠르고 정확한 ECG (환자 별 심전도) 분류 및 모니터링 시스템을 제공합니다.

방법 : 1D 컨볼루션 신경망 (CNN)을 적용한 구현은 본질적으로 ECG 분류의 두 가지 주요 블록인 특징 추출 및 분류를 단일 학습체로 융합하는 데 사용됩니다. 따라서 각 환자에 대해 개인 및 간단한 CNN은 비교적 작은 공통 및 환자별 훈련 데이터를 사용하여 훈련되며, 따라서 이러한 환자별 기능 추출 능력은 분류 성능을 더욱 향상할 수 있다. 이것은 또한 손으로 만든 수동 기능을 추출할 필요성을 없애기 때문에, 특정 환자를 위해 전용 CNN이 훈련된 후에는 가능한 긴 ECG 데이터 스트림을 빠르고 정확한 방식으로 분류하는 데만 사용할 수 있습니다. 경량 웨어러블 장치의 실시간 ECG 모니터링 및 조기 경보 시스템에 편리하게 사용할 수 있습니다.

결과 : MIT-BIH 부정맥 벤치마크 데이터베이스에 대한 결과는 제안된 솔루션이 심실 심전 박동 및 초심실 심전 박동 감지를 위한 대부분의 최신 방법보다 우수한 분류 성능을 달성함을 입증한다.

결론 : 달성된 속도와 계산 효율성 외에도 개별 환자를 위해 전용 CNN이 훈련되면 홀터 레지스터와 같은 긴 ECG 기록을 빠르고 정확한 방식으로 분류하는 데만 사용할 수 있습니다.

중요성: 단순하고 매개 변수 불변성으로 인해 제안된 시스템은 매우 일반적이므로 모든 ECG 데이터 세트에 적용할 수 있습니다.


I. Introduction

데이터 수집의 용이성에도 불구하고 생물 의학 신호에서 신뢰할 수있는 정보를 추출하기 위해서는 여전히 어려운 과제가 있습니다. 심장주기의 각 심장 박동은 심장의 전기적 활동의 시간 변화를 보여줍니다. 이는 심장의 본능적인 전기적 탈분극-재분극 패턴으로 구성됩니다. 전문 방사선 전문의의 경우 심박수 또는 리듬의 이상 또는 기록된 ECG 파형의 형태 학적 패턴 변화를 부정맥의 징후로 쉽게 감지할 수 있습니다. 그러나 이는 여러 가지 이유로 인해 자동 전산 시스템에 매우 어려운 작업으로 판명될 수 있다. 생리적 인공물 및 외부 소음에 대한 생체 의학 신호의 특정 오염은 생체 의학 신호(예: 심전도 신호의 N- 및 S-형 비트) 간의 불균형한 등급으로 인해 시스템의 성능과 정확도가 환자마다 크게 달라진다. 특히 ECG 신호의 시간에 따라 변하는 역학 및 형태학적 특성은 서로 다른 환자와 다른 시간적 및 물리적 조건에서 상당한 변화를 보여준다. 결정론적 동일할 것처럼 보이는 건강한 대상의 심전도에서도 QRS 복합체, P파 및 R-R 간격의 모양은 다른 상황에서 한 박자에서 다른 박자까지 동일하지 않을 것이다 [1].

  주파수 분석 [2], 웨이블릿 변환 [3] 및 필터 뱅크 [4], 통계 [5] 및 휴리스틱 접근법 [6], 숨겨진 마르코프 모델 [7], 지원 벡터 머신 [8], 인공 신경 네트워크(ANN) [9] 및 전문가의 혼합법[10]과 같은 신호 처리 기술에 기초한 일반적이고 완전 자동 심전도 분류 방법이 몇 가지 있었다. 일반적으로, 앞서 언급한 환자 간 ECG 신호 변화로 인해 실제 성능이 좋지 않으므로, 새로운 환자의 ECG 신호를 분류할 때 일관성이 없다는 공통적인 단점을 나타낸다. 따라서 임상적으로나 실제적으로 널리 사용될 수 없으며, 대형 데이터베이스에 대한 정확도와 효율성에 큰 차이가 있는 경향이 있습니다 [11], [12].

  또 다른 심각한 문제는 벤치 마크 데이터 세트를 통해 특정 방법을 평가하고 테스트 할 때 일반적인 관행을 적용하지 않는다는 것입니다. 이를 위해 AAMI (Association for the Advancement of Medical Instrumentation)는 자동화된 부정맥 감지 알고리즘의 성능 결과에 대한 표준 및 권장 사례를 제공합니다 [13]. 그러나 문헌의 많은 방법 중에서 실제로 AAMI 표준을 벤치 마크 MIT-BIH 부정맥 데이터베이스의 전체 데이터와 함께 사용한 경우는 거의 없습니다 [22]. 특히 환자별 설계 [10], [12], [15]–[18] 중 환자별 ECG 신호에 따라 분류기 본체를 조정하거나 최적화하는 능력 덕분에 자동 및 일반 ECG 분류 방법보다 성능이 크게 향상된 경우는 거의 없었다.

  앞서 언급한 환자별 ECG 분류 시스템은 두 가지 주요 작업인 특징 추출과 추출된 특징에 대한 훈련 분류와 같은 공통 접근 방식을 가지고 있다. 그들은 심전도 분류 성능이 심전도 데이터에서 추출한 형상의 특성화 능력에 크게 좌우된다는 것을 입증했다. ECG 분류 문헌에서, 방대한 수의 형상, 형상 조합 및 형상 선택 접근방식이 제안되었다 [20]. 이전 연구에서 Hermite 변환 계수[15]는 다른 것보다 훨씬 높은 성능을 달성했습니다. 시간-주파수 지역화 특성으로 인해 웨이블릿 변환은 비정상 ECG 신호를 분석하기위한 효율적인 도구임이 입증되었습니다 [19]. 이전 작업에서는 키라냐즈 등이 있습니다. [16], [17]보다 우수한 성능을 달성한 [15], 우리는 변환 불변 다이나시 웨이블릿 변환을 사용하여 형태학적 특징을 추출했으며, 잘 알려진 "차원의 저주" 현상을 피하고 그러한 고차원 데이터 공간에서 중복성을 크게 줄이기 위해 입력 특징 벡터의 치수는 f입니다. 주성분 분석(PCA)을 사용하여 추가로 감소했습니다. 그런 다음, 하위 차원 형태학적 형상 벡터를 두 개의 중요한 시간 형상과 결합하여 최종 형상 벡터를 형성했다. 그러나 이러한 고정되고 수작업으로 제작된 형상을 사용하는 것은 최적의 방식으로 기본 신호의 특성을 나타내지 않을 수 있으며, 이는 모든 상황에서 동일한 특징 집합이 모든 환자에게 사용되기 때문에 "환자별" 접근법의 철학에 반하는 것이 분명하다. 진정한 "환자별" 솔루션은 각 개별 심전도 데이터에 대해 가능한 최상의 기능을 설계해야 한다. 더욱이, 특히 PCA와 같은 후처리 방법과 함께 변환 도메인에서 몇 가지 특징을 추출하는 것은 전체 프로세스의 계산 복잡성을 크게 증가시킬 수 있으며, 이는 경량 애플리케이션(예 : 모바일 또는 웨어러블 건강 모니터링 장치) 또는 홀터 레지스터와 같은 대형 ECG 기록의 분류에 방해가 될 수 있다.

 

  이러한 결함과 단점을 해결하기 위해 본 논문에서 우리는 적응형 1-D 컨볼루션 신경 네트워크(CNN)를 기반으로 하는 새로운 ECG 분류 접근방식을 제안한다. CNN은 다층 퍼셉트론(MLP)과 동일한 완전 연결 레이어를 따라 인간 시각 피질의 단순하고 복잡한 세포를 연상시키는 하위 샘플링 레이어와 교대로 컨볼루션 레이어를 사용하는 계층적 신경 네트워크이다. 그것들은 주로 시각적 경치에서 패턴과 구조(예: 물체)를 효율적으로 인식할 수 있는 인간의 시각 시스템을 모방한다. CNN은 이제 일반적으로 최첨단 성능을 달성하면서 큰 이미지에서의 객체 인식과 같은 "딥 러닝" 작업에 사용된다 [24]– [26]. 우리가 아는 바로는, 이것은 특히 심전도 분류와 이상 감지를 목적으로 1-D 신호를 통해 사용되는 첫 번째 연구이다. 기존의 CNN에 대한 적응 제안으로, 제안된 접근법은 각 심장 박동을 샘플링 속도로 분류할 수 있으므로 수동 특징 추출과 후처리가 필요하지 않다. 적절한 훈련을 통해 CNN의 컨볼루션 레이어는 환자별 특징을 추출하는 방법을 배울 수 있는 반면 MLP 레이어는 분류 작업을 수행하여 각 비트의 최종 클래스 벡터를 생성한다. [10] 및 [14]–[17]에서 제안된 제한된 훈련 데이터로, 우리는 간단한 CNN이 딥러닝 작업에 일반적으로 사용되는 복잡한 분류 성능보다 우수한 분류 성능을 달성하기에 충분하다는 것을 입증해야 한다. 결과적으로, 간단한 1-D CNN은 수십 개의 역 전파(BP) epoch만 있어도 훈련하기가 더 쉬우므로 최대 속도로 분류 작업을 수행할 수 있다(수백 개의 1-D 컨볼루션만 필요함). 이를 통해 실시간 심전도 모니터링 및 경량 장치의 조기 경보 시스템을 완벽하게 선택할 수 있습니다. 제안된 접근법의 예는 Fig. 1에 나와 있다. 마지막으로, 우리는 제안된 시스템이 기능 추출과 분류를 위한 결합된 학습자 덕분에 최소 세트의 매개 변수 세트와 수동 설정으로 설계되었기 때문에 데이터 세트의 변화와 관련하여 높은 수준의 견고성을 달성하는 것을 목표로 한다.

Fig 1. 교육(오프라인) 및 실시간 분류 및 모니터링 단계에서 제안된 접근 방식 개요.

  본 문서의 나머지 부분은 다음과 같이 구성되어 있습니다. 섹션 II는 본 연구에서 사용된 심전도 데이터 세트의 개요를 제공하며, 제안된 환자별 심장 박동 분류 시스템의 가능한 원시 데이터 표현에 대한 자세한 설명을 제공한다. BP 훈련 방법과 함께 적응형 1-D CNN은 섹션 III에 제시되어 있다. 섹션 IV에서 제안된 접근법의 성능과 견고성은 MIT/B를 통해 평가된다.표준 성능 측정 기준을 사용하는 IH 부정맥 데이터베이스로 이전 최신 작업과 결과를 비교합니다. 마지막으로 섹션 V는 본 문서를 마무리합니다.


II. ECG Data Processing

이 연구에서 MIT/B의 심전도 데이터 세트IH 부정맥 데이터베이스[22]는 제안된 환자별 ECG 접근법의 성능 평가에 사용된다. 이 벤치마크 데이터베이스에는 48개의 레코드가 들어 있으며, 각각은 47명의 개인 24시간 기록에서 선택한 30분 동안 2채널 심전도 신호를 포함합니다. 연속 심전도 신호는 0.1 – 100 Hz에서 대역 통과 필터링된 다음 360 Hz에서 디지털화됩니다. 데이터베이스에는 독립 전문가가 검증한 타이밍 정보와 비트 클래스 정보에 대한 주석이 모두 들어 있습니다. 본 연구에서는 AAMI ECAR-1987 권장 사례[13]를 준수하기 위해 [16] 및 [17]과 같은 데이터 분할을 수행했다. MIT/B의 44개의 레코드를 사용했습니다. 페이싱된 하트비트를 포함하는 4개의 레코드를 제외한 IH 부정맥 데이터베이스. 일반적인 훈련 데이터에 포함할 대표적인 비트를 선택하기 위해 일상적인 임상 기록의 대표 샘플을 포함하는 첫 번째 20개의 기록(100–124 범위로 수)을 사용한다. 나머지 24개 기록(200-234 범위로 수)은 심실, 접속부 및 심실외 부정맥과 같이 드물지만 임상적으로 유의미한 부정맥을 포함한다 [27]. 44개 레코드 중에서 총 83648개의 비트가 성능 평가를 위한 테스트 패턴으로 사용됩니다. AAMI는 각 심전도 비트를 N(비동 모드에서 발생하는 비트), S(초심실 심전 비트), V(심실 심전 비트), F(융합 비트) 및 Q(분류할 수 없는 비트)의 5가지 심장 박동으로 분류할 것을 권장합니다. 모든 레코드에 대해 수정된 리드 II 신호를 사용하고 라벨을 사용하여 심전도 데이터의 비트를 찾아냈다. 많은 매우 정확한(> 99%) 박동 감지 알고리즘이 문헌에 보고되었기 때문에 박동 감지 프로세스는 본 논문의 범위를 벗어난다 [19, [23].

 

  각 비트의 원시 데이터는 64개 또는 128개의 샘플로 표현되며, 다운샘플링은 고분해능 데이터 표현을 평가하기 위한 것이다. Fig 1과 같이 비트의 형태학적 구조를 학습하기 위해 비트의 R(중앙) 지점에서 각 측면에서 동일한 수의 샘플이 CNN 입력 계층의 뉴런으로 공급된다. 각 박자의 시간적 특성을 배우기 위해, 비트 3중주는 그것의 이웃 비트로부터 형성되고 입력층의 다른 뉴런으로 공급된다. 따라서 비트-트리오 형성 시 중심 박동의 타이밍 정보 차이가 APC(S) 박동의 존재와 같은 심전도 이상과 관련된 타이밍 정보를 나타낼 수 있다. 이것은 각 비트의 원시 데이터의 기본 표현이며, 여기에 각 비트(크기 및 위상 모두)의 FFT도 주파수 영역에서 확장된 원시 데이터 표현으로 간주됩니다. 그 목적은 원시 데이터 표현에서 이러한 확장으로 얻은 성능 이득을 평가하는 것이다.

 

  개별 환자의 분류자를 훈련하는 데 사용되는 데이터는 글로벌 (각 환자에 공통) 및 로컬 (환자 별) 훈련 패턴의 두 부분으로 구성됩니다. 환자 별 데이터는 각 환자의 ECG 기록의 처음 5 분 세그먼트를 포함하고 환자 적응을 수행하기위한 훈련 데이터의 일부로 사용되지만 글로벌 데이터 세트에는 훈련 파일의 각 클래스에서 비교적 적은 수의 대표 비트가 포함됩니다. 분류자가 환자 별 데이터에 포함되지 않은 다른 부정맥 패턴을 학습하는 데 도움이됩니다. 이 연습은 AAMI 권장 절차를 준수하여 각 환자의 교육 기록 시작부터 최대 5 분 섹션을 사용할 수 있습니다 [13].


III. ADAPTIVE 1-D CNNs

앞에서 언급한 것처럼 적응형 1-D CNN은 데이터베이스의 각 개별 환자로부터 원시 ECG 데이터를 추출하고 분류하는 데 모두 사용된다. 부록 A에서는 2-D 이미지 분류를 위해 개발된 기존의 CNN에 대한 개요를 소개했다. 따라서, 우리는 기존의 CNN에 따라 적응형 CNN의 설계를 2-D로 제시하고 BP 훈련을 공식화해야 한다. 마지막으로, 우리는 BP 공식과 함께 2-D CNN의 1-D CNN에 필요한 변경사항과 수정사항을 강조할 것이다.

 

  CNN 유사성을 단순화하고 CNN 매개 변수와 독립적인 입력 계층 차원의 자유를 얻기 위해 숨겨진 CNN 계층의 뉴런은 그림 2와 같이 컨볼루션과 다운샘플링을 모두 수행할 수 있도록 확장된다. 또한 이 구현은 MLP 계층 없이 "CNN 전용" 설계의 능력을 허용한다. 설명을 위해 그림의 모든 CNN 레이어에 대해 3 × 3 커널 ($Kx = Ky = 3$)을 가정합니다. 그러나 원하는 경우 다른 커널 크기를 할당 할 수도 있습니다. 따라서 계층 $l$에있는 $k$번째 뉴런의 최종 출력 인 $s^l_k$는 중간 출력 $y^l_k$의 서브 샘플링 된 버전입니다. 순방향 전파 (FP) 동안 다음 계층 뉴런의 입력 맵은 다음과 같이 개별 커널과 컨볼 루션 된 이전 계층 뉴런의 최종 출력 맵을 누적하여 얻습니다.

여기서 conv2D(. .)는 경계에 0 패딩이 없는 규칙적인 2-D 컨볼루션이고, $x^l_k$는 입력이며, $b^l_k$은 $l$층에서 $k$번째 뉴런의 편향이며, $s^{l-1}_i$는 ${l–1}$층에서 $i$번째 뉴런으로 출력된다. $w^{l-1}_{ik}$는 계층 ${l-1}$의 $i$번째 뉴런에서 계층 $l$의 $k$번째 뉴런까지의 커널 (가중치)입니다. BP 훈련을 수행하기 위해, 각 뉴런에 대해 저장된 세 가지 요소가 더 있습니다: 델타 오류 $Δ^l_k$, 다운샘플링된 델타 오류 $Δ^l_{sk}$, 그리고 마지막으로, 중간 출력 $f'(x^l_k)$의 파생물입니다. 모두 다음 절에서 설명될 것입니다.

Fig 2. 적응형 CNN 구현

  우리는 숨겨진 CNN 레이어의 수를 임의의 수로 설정할 수있는 것을 목표로합니다. 이 기능은 출력 CNN 계층 (첫 번째 MLP 계층 바로 앞의 숨겨진 CNN 계층)의 하위 샘플링 인자가 입력 맵의 차원으로 자동 설정되기 때문에 가능합니다. $l + 1$은 출력 CNN 계층이되고,이 샘플 그림에서는 입력 맵 차원이 $8 × 8$이므로 해당 계층의 하위 샘플링 계수는 $ssx = ssy = 8$이됩니다. 서브 샘플링 외에, 입력 맵의 차원은 0 패딩이없는 컨볼루션으로 인해 점차 감소합니다. 즉, Fig 2에서 뉴런 출력의 차원은 감소 된 계층 $l-1$에서 $22 × 22$입니다. 계층 $l$에서 20 × 20. 그 결과 현재 레이어의 입력 맵 크기가 $(Kx–1, Ky–1)$만큼 줄어 듭니다. 여기서 $Kx$와 $Ky$는 각각 커널의 너비와 높이입니다.

 

A. CNN 뉴런 내의 BP 내부 분석:$Δ^l_k ← Δs^l_k$

  MLP 계층 간 및 첫 번째 MLP 계층에서 출력 CNN 계층까지의 BP는 부록 B에 수록되어 있다. 첫 번째 BP가 다음 계층인 l + 1에서 현재 계층인 l로 수행되면 입력 델타까지 BP를 추가로 수행할 수 있습니다. 0 순서의 업 샘플맵을 $us^l_k = up_{ssx,ssy}(s^l_k)$로 설정한다면, 그러면 $s^l_k$의 각 픽셀이 중간 출력 $y^l_k$의 픽셀 수 $ssx.ssy$를 평균하여 얻었으므로 $β = (ssx.ssy)^{-1}$에 쓸 수 있습니다. 평균화 대신 최대 풀링을 사용하는 경우 그에 따라 (2)를 조정해야합니다.