(CSLR 관련 STMC 논문)
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition
https://arxiv.org/pdf/2002.03187.pdf
Abstract
CSLR(연속 수화 인식)에서 딥러닝의 성공에도 불구하고,
딥 모델은 일반적으로 가장 차별적인 특징에 초점을 맞추고, 잠재적으로 중요하지 않고 유용한 다른 내용을 무시 (-)
-> 서로 다른 시각적 신호(즉, 손 모양, 얼굴 표정 및 자세)의 콜라보 뒤에 숨겨진 시각적 문법을 학습하는 능력을 크게 제약 !
본 논문은
1. 신경망 설계에 멀티큐 학습을 주입하여, 비전 기반 시퀀스 학습 문제를 해결하기 위한 STMC(spatial-temporal multi-cue) 네트워크를 제안!
- STMC network = SMC(공간적 멀티큐) 모듈과 TMC(시간적 멀티큐) 모듈로 구성
- SMC 모듈 = 공간 표현 전용. 자체 포함 pose estimation branch를 사용하여 다양한 단어의 시각적 특성을 명시적으로 분해
- TMC 모듈 = 두 개의 병렬 경로(intra/inter-cue path)를 따라 시간적 상관 관계를 모델링. 즉, 고유성을 보존하고 여러 단서의 협업을 탐색하는 것을 목표로 한다.
2. STMC network의 엔드 투 엔드 시퀀스 학습을 달성하기 위한 공동 최적화 전략을 설계!
효과를 검증하기 위해 세 가지 대규모 CSLR 벤치마크들에 대한 실험 수행 : PHOENIX-2014 & CSL & PHOENIX-2014-T.
실험 결과는 제안된 방법이 세 가지 벤치마크 모두에서 새로운 최첨단 성능을 달성한다는 것을 보여준다.
1. Introduction
수화는 청각장애인들의 주요 언어이다. 청각장애인과 청각장애인 간의 일상적인 의사소통을 원활하게 하기 위해서는 수화인식(SLR) 기술을 개발하는 것이 중요하다. 최근 SLR은 풍부한 시각적 정보와 체계적인 문법 규칙으로 상당한 주목을 받고 있다.
연속 SLR(CSLR)에 초점을 맞추고 있으며, 일련의 sign들을 해당 sign gloss 문장으로 번역하는 것이 목표 !
수화는 주로 손동작에 의존하지만, 손동작에 국한되지는 않는다. 두가지 매뉴얼을 동시에 활용한다.
1. 얼굴과 상반신 자세의 비수동 요소 - 눈의 시선, 입 모양, 얼굴 표정 및 몸 자세
2. 손의 수동 요소 - 모양, 위치, 양손의 방향과 움직임
인간의 시각적 지각(perception)은 동시다발적이면서도 복잡한 정보를 많은 노력 없이 처리하고 분석할 수 있게 해주지만, 전문 지식이 없다면, 심층 신경망이 여러 시각적 큐의 암묵적 협업을 자동으로 발견하기 어렵다.
특히 CSLR의 경우, sign glosses 사이의 전환은 시간적 변화 및 다른 큐의 스위치와 함께 발생할 수 있다.(?)
멀티큐 정보를 탐색하기 위해 일부 방법은 외부 도구에 의존한다. (예. 기성품 검출기는 형태 변화 및 폐색에 대처하기 위한 추적기와 함께 손 탐지에 활용) 일부 방법에는 각 스트림이 개별 시각적 큐에 초점을 맞추도록 유도하기 위해 유추된 레이블(즉, 입 모양 레이블, 손 모양 레이블)이 있는 다중 스트림 네트워크를 채택한다.
이러한 개선에도 불구하고 이들은 대부분 두 가지 한계를 겪고 있다. (-)
- 외부 도구는 신경 네트워크의 구별 가능한 구조에 대한 엔드 투 엔드 학습을 방해.
- 기성 도구와 멀티스트림 네트워크는 동일한 지역의 반복적인 기능 추출 기능을 제공하므로 이러한 비디오 기반 변환 작업에 많은 컴퓨팅 오버헤드 발생.
멀티큐 기능을 일시적으로 활용하는 직관적 아이디어 : 피처 연결하여 시간적 퓨전(temporal fusion) 모듈에 공급하기. 동작 인식에서 2-stream 퓨전은 RGB와 광학 흐름(optical flow)의 시간적 특징을 융합해 성능 향상을 크게 보여준다.
그럼에도 불구하고 융합 접근법은 표현 능력 측면에서 두 가지 상반되는 특징에 기초한다. 그러나 피처의 중요성이 동일하지 않은 여러 다양한 큐들로 전환될 경우, 강력한 피처와 약한 피처 간의 시너지를 어떻게 완전히 활용하느냐가 여전히 도전 과제로 남아 있다. 더욱이, 딥러닝 기반 방법의 경우, 신경 네트워크는 빠른 융합을 위해 강한 특징에만 집중하는 경향이 있으며, 잠재적으로 다른 정보 단서를 누락시켜 추가적인 성능 향상을 제한한다.
-> 우리는 위의 어려움을 해결하기 위해, 새로운 STMC(spatial-temporal multi-cue) 프레임워크를 제안!
STMC(spatial-temporal multi-cue) 프레임워크 ?
- SMC 모듈에 deconvolutional layers 2개 추가 -> backbone의 맨 위 레이어에 대한 포즈 평가 수행 O
- soft-argmax trick을 사용하여 핵심 요점의 위치를 회귀시키고, 시간적 부분의 후속 작업을 위해 차별화.
- 다른 단서의 공간 표현은 중간 레이어의 피쳐 맵을 재사용하여 획득.
- 학습된 공간 표현을 바탕으로, 우리는 TMC 모듈에서 시간 모델링 부분을 큐 내 경로(intra-cue path)와 인터큐 경로(inter-cue path)로 분해.
-> 큐 내 경로(intra-cue path)는 시간적 콘볼루션(TCOV) 계층과 다른 신호 사이의 시간적 상관관계를 결합.
-> 큐 내 경로(inter-cue path)는 각 큐의 내부 시간 의존성을 모델링하고 서로 다른 시간 척도로 큐 경로에 공급.
- STMC 네트워크의 잠재력을 최대한 활용하기 위해, 연결주의 시간적 분류(CTC)와 키포인트 회귀분석(keypoint regressino)를 통해 전체 구조를 전체적으로 교육할 수 있도록 공동 최적화 전략을 설계한다.
- 본 논문의 주요 기여 요약
• 자급자족 포즈 평가 지점이 있는 SMC 모듈을 설계. 멀티큐 기능을 엔드 투 엔드 방식으로 제공하고 효율성을 동시에 유지.
• 쌓인 TMC 블록으로 구성된 TMC 모듈을 제안. 각 블록에는 큐 내 경로와 인터큐 경로가 포함되어 있어 고유성을 보존하고 동시에 다양한 큐의 시너지를 탐색할 수 있다.
• STMC 네트워크의 엔드 투 엔드 시퀀스 학습을 위한 공동 최적화 전략이 제안.
• 광범위한 실험을 통해, 우리는 우리의 STMC 네트워크가 공개적으로 이용 가능한 세 가지 CSLR 벤치마크에서 이전의 최첨단 모델을 능가한다는 것을 입증.
2. Related work
수화 인식 및 멀티큐 융합에 대한 관련 작업을 간략히 검토!
CSLR 시스템은 일반적으로 비디오 표현과 시퀀스 학습의 두 부분으로 구성.
초기 작품에서는 SLR에 수작업 기능 활용 -> 최근에는 Deep Learning 기반 방식이 SLR의 강력한 표현력을 위해 적용되고 있다. 수화 비디오의 모양과 동작을 모델링하기 위해 컨볼루션 신경 네트워크(2D-CNN)와 3D 컨볼루션 신경 네트워크(3D-CNN)가 사용.
CSLR의 시퀀스 학습은 비디오 시퀀스와 sign gloss 시퀀스 간의 대응성을 학습하는 것 !
논문마다 2D-CNN과 hidden 마르코프 모델(HM)을 통합하여 국가 전환을 모델링 / 연결주의 시간 분류 알고리즘을 사용하여 세그먼트화되지 않은 입력 데이터 처리 / 주의기반 인코더-디코더 모델 채택하여 신경기계 번역 방식으로 CSLR 처리
수화 multi cue - multi-modality & multi-semantic
- Multi-modality : (초기) 물리 센서를 활용하여 깊이 및 적외선 지도와 같은 3D 공간 정보 수집 -> stream 예측의 개발로 RGB와 광 흐름의 다중 형식 융합을 탐구하여 최첨단 성능 달성
- Multi-semantic : 다른 의미를 가진 인체 부위. 분절된 손, (초기) 추적된 신체 부위 및 궤적을 인식하기 위해 수작업 기능 사용 -> 추적기에 의해 캡처된 핸드패치의 피처 시퀀스는 후속 시퀀스 예측을 위해 풀프레임의 피쳐 시퀀스와 융합된다.
(Koller et al. 2019)에서 Koller 등은 구어 독일어 주석에서 약한 입 라벨을, SL 사전에서 약한 손 라벨을 추론할 것을 제안한다. 이 약한 라벨은 풀프레임, 손 모양, 입 모양 등 다양한 단서의 HM에서 상태 동기화를 설정하는 데 사용된다. 기존 방식과는 달리 공동 최적화를 통한 멀티큐 융합을 위한 엔드 투 엔드 미분 가능 네트워크를 제안하여 탁월한 성능을 달성한다.
3. Proposed Approach
제안된 방법의 전반적인 아키텍처를 소개 -> SMC(spatial multi-cue) 모듈과 TMC(temporal multi-cue) 모듈을 포함한 프레임워크의 핵심 구성요소를 자세히 설명 -> 시퀀스 학습 부분과 공간-시간적 멀티큐(STMC) 프레임워크의 공동 손실 최적화에 대해 자세히 설명
3.1 Framework Overview
T개의 프레임이 있는 비디오 x = {xt}가 주어졌을 때,
CSLR task의 타겟은 해당하는 sign gloss sequence (l={li})를 L개의 워드들로 예측하는 것이다.
-> 우리의 프레임워크 3가지 핵심 모듈 : 공간 표현 & 시간 모델링 & 시퀀스 학습
- 각 프레임은 SMC 모듈에 의해 처리되어 full-frame, 손, 얼굴, 자세를 포함한 여러 큐들의 공간적 특징 생성
- TMC 모듈을 활용하여 intra-cue/inter-cue 피처의 시간적 상관 관계를 서로 다른 시간 단계와 시간 척도로 캡처
- 양방향 장기-단기 메모리(BLSTM) 인코더가 장착된 전체 STMC 네트워크는 시퀀스학습 및 추론을 위해 연결주의 시간 분류(CTC)를 활용
3.2 Spatial Multi-Cue Representation
공간 표현 모듈 Spatial Representatino module
- 2D-CNN으로 풀프레임, 손, 얼굴, 자세의 멀티큐 피처 생성
- 단순하지만 효과적인 신경 아키텍처 설계를 고려하여 VGG-11 모델을 백본 네트워크로 선정
SMC 작업은 총 세단계로 구성
1) Pose Estimation
- Deconvolutional network는 픽셀 단위 예측에 널리 사용된다. 포츠 추정을 위해, VGG-11의 7차 convolutional layer 뒤에 2개의 devoncolutional layer 추가
- 각 층 stride 2
- feature map - 해상도 14*14 부터 56*56 까지 4배 업샘플링
- output - point별 컨볼루션 레이어에서 k개 예측된 히트맵 생성.
- 히트맵 - 해당 키포인트의 위치는 가장 높은 y값을 나타낼 것으로 예상
- 여기서 k는 코, 양쪽 어깨, 양쪽 팔꿈치, 양쪽 손목 등 상체의 keypoint이고 7로 설정한다.
- 후속 시퀀스 학습을 위해 키포인트 예측을 차별화할 수 있도록 히트맵에 soft-argmax layer 적용
K개 히트맵들을 h={hk}로 나타내며, 각 히트맵들(hk)은 spatial softmax function을 통과한다.
여기서 hi,j,k는 위치(i, j)에서 히트맵 hk의 값이고, pi,j,k는 위치(i, j)에서 키포인트 k의 확률.
이후 전체 확률도에 걸쳐 x축과 y축을 따라 예상되는 좌표값을 다음과 같이 계산한다.
여기서 Jk = (x_hat, y_hat)k 은 keypoint k의 정규화된[0,1] 예측 위치
H × W 피쳐 맵에서 (x, y)의 해당 위치는 (x_hat(H-1) + 1, y_hat(W-1) + 1)
2) Patch Cropping
CSLR에서는 눈의 시선, 얼굴 표정, 입 모양, 손 모양 및 방향 등 세부적인 시각적 단서에 대한 인식이 필수적
우리 모델은 코와 양 손목을 얼굴과 양손의 중심점으로 예측한 위치로 한다.
패치는 VGG-11의 4차 컨볼루션 레이어의 출력(56 × 56 × C4)에서 잘린다.
cropping (자르기) 크기는 양손의 경우 24 × 24, 얼굴의 경우 16 × 16으로 고정. 카메라에 상체가 보이는 수화기의 신체 부위를 덮을 수 있을 만큼 크다.
각 패치의 중심점은 패치가 원래 피쳐 맵의 테두리를 넘지 않도록 범위에 고정된다.
3) Feature Generation
K개 키포인트들을 예측한 후 2K 차수의 1D-벡터로 평평하게 핀다 -> ReLU와 함께 Fully-Connected(FC) 레이어 2개를 통과해 pose cue의 피쳐 벡터를 얻는다 -> 얼굴과 양손의 피쳐 맵을 잘라 여러 개의 컨볼루션 레이어에 의해 별도로 처리. 대부분의 수화 제스처는 양손에 의존하기 때문에, 우리는 양손에 weight-sharing 컨볼루션 레이어를 사용한다.
출력은 채널 차수를 따라 연결된다. -> 마지막으로 공간 차수를 사용하여 모든 피쳐 맵에 대해 global average pooling을 수행하여 서로 다른 단서의 피쳐 벡터를 형성한다.
모든 피처들은 frame x = {xt}가 SMC(공간 멀티큐) 모듈을 통과할 때 추출된다.
- 오메가 - SMC 모듈
- 세타 - SMC 모듈의 매개변수
- Jt,k - t번째 프레임에서 키포인트 k의 위치
- ft,n - t번째 프레임에서 시각적 큐 n의 피쳐 벡터입니다.
- 본 문서에서는 각각 풀프레임, 손, 얼굴, 자세의 시각적 신호를 나타내는 N은 4로 설정한다.
3.3 Temporal Multi-Cue Modelling
TMC(Temporal Multi-Cue) 모듈
단순한 융합 대신 intra-cue 및 inter-cue 두 가지 측면에서 공간적 시간 정보를 통합하고자 한다
intra-cue 경로 - 각 비주얼 큐의 고유한 특징을 캡처
inter-cue 경로 - 서로 다른 시간 척도에서 서로 다른 신호로부터 퓨전된 피쳐의 조합을 학습
TMC 블록은 두 경로 사이의 작동을 모델링하는 것으로 정의한다.
- (ol-1, fl-1) : l번째 블록의 입력쌍
- (ol, fl) : l번째 블록의 출력 쌍
- ol → R : inter-cue 경로의 피쳐 매트릭스
- fl → R : 채널 차수를 따라 다른 큐의 벡터 연결인 intra-cue 경로의 피쳐 매트릭스
- 첫 번째 입력 쌍으로서, o1 = f1 = [f(1,1), f(1, 2), · · ·, f(1, N)]이며, N은 단서의 수입니다.
Intra-Cue Path
- 첫 번째 경로
- 서로 다른 시간 척도로 서로 다른 단서의 고유한 특징을 제공하는 것
- fl,n : n번째 큐의 피쳐 매트릭스를 나타낸다.
- K : 임시 변환의 커널
- k : 임시 커널 크기
- C/N : 출력 채널의 수
Inter-Cue Path
- 두 번째 경로
- 이전 블록의 inter-cue 피쳐에서 시간 변환을 수행하고 intra-cue 경로의 정보를 결합하는 것
- K : 점 단위의 시간적 결합. 두 경로 사이의 프로젝트 매트릭스 역할 수행.
- fl : 현재 블록에 있는 inter-cue 경로의 출력
- 각 블록 후에는 strade 2 및 kernel size 2의 시간적 max-pooling 수행 !
본 문서에서는 TMC 모듈의 두 블록을 사용.
(모든 시간적 변환의 커널 크기 k는 점 단위 변환을 제외하고 5로 설정, 각 경로의 출력 채널 C 수는 1024로 설정)
3.4 Sequence Learning and Inference
SMC 및 TMC 모듈을 통해 네트워크는 두 피쳐 시퀀스 생성
inter-cue 피쳐 시퀀스
intra-cue 피쳐 시퀀스
(T' : TMC 모듈의 최종 출력의 시간 길이)
이 두 가지 특성 시퀀스를 어떻게 활용하여 시퀀스 학습과 추론을 수행하느냐?
BLSTM Encoder
Recurrent Neural Network(반복 신경 네트워크, RNN) : 내부 상태를 사용하여 입력 시퀀스의 상태 전환을 모델링
RNN을 사용하여 공간적 시간 피쳐 시퀀스를 sign gloss 시퀀스에 매핑! (input - 피쳐 시퀀스)
T'의 hidden state 생성
h - time step (t)의 hidden state
h0 - 초기상태, 고정된 all-zero vector
Long-term dependencies (장기 의존성) 처리 능력을 위해 양방향 장기 기억 장치(BIdrectional Long Short-Term Memory. BLSTM) unit을 반복 unit으로 선택
BLSTM : 양방향 입력에서 전진 및 후진 hideen state를 연결 -> 각 시간 단계의 hidden state가 fully-connected layer와 softmax layer를 통과
Connectionist Temporal Classification
비디오 시퀀스 o 을 정렬된 sign gloss 시퀀스 l 에 매핑하는 문제를 다루기 위해 연결주의 시간 분류(CTC) 사용
CTC의 목표는 입력과 타겟 시퀀스 간 가능한 모든 정렬 경로의 확률 합계를 최대화하는 것!
Joint Loss Optimization
주요 목표는 intra-cue 경로의 최적화
융합을 위한 각 개별 큐의 정보를 제공하기 위해, intra-cue 경로가 보조 역할을 한다.
Inference
추론을 위해 SMC 및 TMC 모듈을 통해 비디오 프레임을 전달한다.
inter-cue 피쳐 시퀀스와 해당 BLSM 인코더만 항상 glosses의 후방 확률 분포를 생성하는 데 사용된다.
우리는 beam search decoder를 사용하여 허용 가능한 범위 내에서 가장 가능성이 높은 시퀀스를 검색한다.
4. Experiments
4.1 Dataset and Evaluation
3개의 Dataset에 대해 평가 수행한다.
1) PHOENIX-2014 (Koller, Forster, Ney 2015)
- CSLR의 가장 인기 있는 벤치마크인 독일 수화 데이터셋
- 날씨 방송 뉴스에서 녹음되었다. 여기에는 단어 크기가 1295인 9명의 수화 사용자의 동영상
- Train, Dev, Test 비디오의 분할은 5672, 540, 629
- 우리의 방법은 multi-signer 데이터베이스에서 평가된다.
2) CSL (Huang et al. 2018; Guo et al. 2018)
- 중국어 수화 데이터셋
- 일상생활에 관한 100개의 수화 문장과 178개의 단어. 각 문장에는 50명의 서명자가 수행하며 총 5000개의 동영상
- 사전 교육을 위해 500개의 단어가 포함된 일치된 고립된 중국어 수화 데이터베이스도 제공.
- 각 단어는 50명의 서명자에 의해 10번 수행된다.
3) PHOENIX-2014-T (Cihan Camgoz et al. 2018)
- 피닉스 2014의 확장 버전으로, 새로운 비디오를 위한 2단계 주석이 있다.
- 1. CSLR 작업에 대한 부호 광택 주석
- 2. 수화 번역(SLT) 작업을 위한 독일어 번역 주석
- Train, Dev, Test 비디오 분할은 7096, 519, 642
- 단어 크기 : sign gloss는 1115, 독일어는 3000
Pose Annotation
공개적으로 제공되는 HRNet toolbox 사용하여 3개의 데이터베이스에 있는 모든 프레임에 대해 상반신의 7개 키포인트의 위치를 추정한다.
toolbox(도구 상자)는 픽셀 좌표계에서 2D 좌표(x, y) 제공
각 정규화된 키포인트를 (x, y) 튜플로 나타내어 7 튜플의 배열로 기록
Evaluation
CSLR에서 단어 오류율(WER)은 두 문장의 유사성을 측정하는 지표로 사용된다.
이 값은 substitution(sub), deletion(del), insertion(ins)의 최소 연산을 측정하여 아래 식을 통해 구한다.
4.2 Implementatino Details
입력 프레임의 크기는 224×224
하나의 비디오에서 데이터를 확대하기 위해 모든 프레임의 동일한 위치에 랜덤 crop, 20% 프레임의 랜덤 discard, 모든 프레임의 랜덤 flip을 추가한다.
단계별 최적화 전략
- VGG11 기반 네트워크를 DNF로 교육하고 이를 사용하여 각 클립의 가명 레이블을 디코딩
- TMC 모듈의 각 출력 후에 fully-connected layer 추가
- BLSTM이 없는 STMC 네트워크는 SGD Optimizer에 의해 교차 엔트로피 및 smooth-L1 loss를 train (batch size 24, clip size 16)
- 이전 단계의 미세 조정된 매개변수를 통해, STMC 네트워크는 joint loss optimizaiton 하에 전체적으로 end-to-end로 교육됩니다. ( Adam Optimizer : 학습률 5 × 10의 (-5)승 / 배치 크기 2)
모든 실험에서 α는 0.6, β는 30으로 설정.
실제로 실험 결과(그림 4)는 α = 0을 제외하고 α의 미미한 변화에 민감하지 않다.
네트워크 아키텍처는 PyTorch에서 구현.
미세 조정을 위해 BLSTM이 없는 STMC 네트워크를 epoch 25로 train
이후, 전체 STMC 네트워크는 epoch 30으로 end-to-end train
추론을 위해 beam 너비는 20으로 설정. 실험은 GTX 1080Ti GPU 4개로 진행.
4.3 Framework Effectiveness Study
공정한 비교를 위해, CSLR에서 가장 인기 있는 데이터 집합인 피닉스-2014에 대해 수행
Module Analysis 각 모듈의 효과분석
기준 모델 - BLSTM 인코더가 장착된 VGG11+1D-CNN
multi-cue 피쳐를 사용한 SMC 모듈은 test set 기준선에 비해 약 3% 향상된 성능
공동 손실 최적화(Joint Loss, JL)를 통해 CTC 손실에 의해 각 큐의 시간 의존성을 학습하고, 1D-CNN과 비교했을 때 dev 세트 및 test 세트에 대해 1.6%, 1.7%의 추가 이득을 제공한다.
기준 모델과 비교했을 때, STMC 네트워크는 test set의 WER를 4.8% 감소시킨다.
Intra-Cue and Inter-Cue Paths
두 경로의 서로 다른 인코터의 WER은 dev set에서 평가된다.
4가지 큐 중 pose가 최악. 상체 관절의 위치와 방향만 가지고는 손짓의 미묘한 차이를 구별하기 어렵다.
hand(손놀림)은 face보다는 우수하지만 full frame은 상대적으로 뛰어난 성능을 발휘한다.
서로 다른 큐의 시너지를 활용하여 인터큐 경로가 최저 WER을 보여준다.
Inference Time
자급자족(self-contained) 포즈 추정 분기의 효과를 명확히 하기 위해 추론 시간을 평가한다.
추론 시간은 비디오 길이에 따라 달라지는데, 평균적으로, sign 문장은 약 8초 정도 걸린다.
공정한 비교를 위해 단일 GPU에서 200프레임의 추론 시간을 평가하며, 포즈 추정을 위한 외부 VGG-11 기반 모델을 도입했을 때와 비교했을 때 자체 내장 브랜치는 약 44%의 추론 시간을 절약한다.
자체 내장형 브랜치가 적용된 프레임워크가 기성 모델보다 약간 더 나은 성능을 보인다는 점이 눈에 띈다.
우리는 분별 가능한 포즈 추정 지점이 규칙화의 역할을 하고 신경망의 과부적합을 완화시킨다고 주장한다.
Qualitative Analysis
inter-cue 경로의 결과가 여러 큐의 상관관계를 효과적으로 학습하고 더 나은 예측을 할 수 있다는 것은 분명하다.
4.4 State-of-the-art Comparison
Evaluation on PEOENIX-2014
CMLLR 및 1-Mio-Hands - 수작업 기능이 있는 전통적인 HM 기반 모델
SubUNets 및 LS-HAN - 풀프레임 기능이 외부 트래커에 의해 캡처되는 핸드패치의 기능과 융합
CNN-LSTMHMM - 2 스트림 네트워크는 각각 약한 핸드 레이블과 sign gloss label로 train
우리의 STMC는 최근 두 가지 멀티큐 방법(LS-HAN과 CNN-LSTM-HMM)을 17.6%, 5.3% 능가한다. 더욱이 RGB와 optical flow modality의 융합을 탐구하는 DNF와 비교했을 때, STMC는 여전히 이 최고의 경쟁자를 2.2% 능가하고 있다. RGB 양식을 기반으로 새로운 STMC 프레임워크를 제안하고 테스트 세트에서 20.7% WER를 달성하여 피닉스-2014의 새로운 stae-of-the-art 결과를 달성한다. (+)
Evaluaiton on CSL
CSL dataset은 피닉스-2014에 비해 어휘가 적다. CSL dataset은 두 가지 설정으로 분할된다.
Split 1 | Split 2 |
- signer가 독립적인 test - train, test set은 동일한 문장을 공유하여 signer가 겹치지 않는다. |
- 보이지 않는 문장 테스트 - train, test set은 동일한 singer와 동일한 문장 중복 없이 어휘를 공유한다. |
두 가지 설정 중, CSLR에서 보이지 않는 단어 조합의 인식이 어렵다는 점에서 분할 II가 더 어렵다.
IAN에서는 CTC 디코더와 LSTM 디코더의 정렬 알고리즘이 기존 방식에 비해 현저한 향상을 보였다.
멀티큐 학습을 통해 얻은 NAT의 STMC 프레임워크는 WER에서 CSL 최고의 경쟁업체를 4.1% 능가한다. (+)
Evaluation on PHOENIX-2014-T
피닉스-2014-T는 수화 광택 주석과 독일어 구어 주석으로 확장된 데이터베이스를 제공한다.
CNN-LSTM-HMM은 구어 독일어 주석을 사용하여 각 동영상의 약한 입 모양 레이블을 추론한다. 풀프레임, 손, 입을 포함한 멀티큐 순차 병렬 처리의 결과를 제공한다.
우리의 방법은 CNN-LSTM-HMM의 세 가지 조합 모두를 능가한다 (+)
5. Conclusion
본 논문은 CSLR을 위한 새로운 멀티큐 프레임워크를 제시하고, end-to-end 방식으로 시각적 단서의 공간-시간 상관관계를 학습하는 것을 목표로 한다.
<요약>
- 공간 멀티큐 모듈(SMT)을 자급자족 포즈 추정 분기로 설계하여 공간 멀티큐 기능을 분해한다.
- intra-cue / inter-cue path로 구성된 시간적 멀티큐 모듈(TMC)는 각 큐의 고유성을 보존하면서 동시에 다른 큐의 시너지를 탐색하는 것을 목표로 한다.
- 멀티큐 시퀀스 학습을 달성하기 위한 공동 최적화 전략이 제안된다.
- 세 개의 대규모 CSLR 데이터셋에 대한 광범위한 실험은 STMC 프레임워크의 우수성을 입증한다.
+ 관련 논문 첨부합니다 !
STMC 방법 사용하는 SLT(수어 번역) 관련 논문
"Better Sign Language Translation with STMC-Transformer"
'Stay Hungry Stay Foolish > 논문 정리' 카테고리의 다른 글
[논문 정리] Neural Sign Language Translation based on Human Keypoint Estimation (0) | 2021.09.14 |
---|---|
[논문 정리] Better Sign Language Translation with STMC-Transformer (0) | 2021.08.12 |
[논문 정리] Fast R-CNN (0) | 2021.04.07 |
[논문 정리]Rich feature hierarchies for accurate object detection and semantic segme (0) | 2021.03.31 |
[논문 정리] Very Deep Convolutional Networks For Large-Scale Image Recognition (0) | 2021.03.16 |
댓글