본문 바로가기
Stay Hungry Stay Foolish/논문 정리

[논문 정리] Better Sign Language Translation with STMC-Transformer

by HANNI하니 2021. 8. 12.

(수어 번역 관련 논문)

Better Sign Language Translation with STMC-Transformer

https://arxiv.org/pdf/2004.00588v2.pdf

 

 

0. Abstract

수화 번역 Sign Langauage Translation (SLT)

: 수화 비디오 --(인식 시스템 SLR)--> 수화 Glosse 추출 --(번역 시스템)--> 구어 생성

먼저 수화를 인식 시스템을 사용하여 비디오에서 수화 Glosse을 추출하면, 추출한 수화 Glosse서 번역 시스템이 구어를 생성한다.

 

본 논문은  ~ !

번역 시스템에 초점.

FIX-Weather 2014T 데이터셋의 글로스-투-텍스트 변환과 비디오-투-텍스트 변환에서 각각 5 및 7 BLEU 이상의 최신 기술을 향상시킨 STMC-Transformer를 소개. 

ASLG-PC12 말뭉치에 대해서 16 BLEU 이상의 증가.

Glosse 감시에 의존하는 현재의 방법(GT Glosse 번역)에서 문제점을 입증. STMC-Transformer의 비디오 텍스트 번역은 GT Glosse의 번역보다 뛰어납니다. 이는 GT Glosse 번역이 SLT 성능의 상한으로 작용한다는 기존 주장과 배치되며, 광택이 수화를 비효율적으로 표현한 것임을 드러낸다.

-> 따라서 향후 SLT 연구를 위해 인식 및 번역 모델에 대한 end-to-end 학습 또는 다른 수화 주석 체계를 사용할 것을 제안.

 

1. Introduction

소통은 우리의 일상과 사회적 상호작용에서 중심적인 위치를 차지하고 있다. 그러나, 청각적인 사회에서, 수화 사용자들은 종종 효과적인 의사소통을 박탈당한다. 청각장애인은 오늘날까지 사회적으로 고립되고 의사소통 불량이 일상적으로 발생하는 문제에 직면하고 있다(Souza et al., 2017). 본 논문은 청각장애인들이 자신의 언어로 의사소통을 할 수 있는 보조 기술을 제공하기 위해 작성되었다.

 

수화는 구어와는 독립적으로 발전하여 구어 상대법의 문법 공유 X

-> 수화 인식(SLR) 시스템만으로는 수화의 기본 문법과 복잡성을 파악 X, 수화 번역(SLT)은 번역 과정에서 고유한 언어 특성을 고려해야 하는 추가적인 과제에 직면해 있다.

 

그림 1에서 볼 수 있듯이, 현재의 SLT 접근법은 두 단계를 포함한다.

토큰화 시스템은 수화 비디오에서 Glosse을 발생시키고, 번역 시스템은 인식된 Glosse을 구어로 번역한다.

최근 연구(Orbay and Akarun, 2020; Zhou et al., 2020)는 첫 단계를 다루었지만 번역 시스템을 개선한 것은 없다. 이 논문은 최근 성공한 신경기계번역(NMT)인 트랜스포머를 활용해 연구 격차를 해소하고자 한다.

 

기존 SLT 모델의 또 다른 한계 : 수화의 중간 표현으로 Glosse을 사용한다는 점.

완벽한 연속 SLR 시스템을 갖추어도 SLT 결과가 반드시 개선되지는 않는다는 것을 보여줍니다.
우리는 Glosse가 수화 표현의 결함임을 드러내는,

Ground Truth(GT) Glosse의 번역을 능가하는 video to text 번역을 수행하는 STMC-트랜스포머 모델을 소개한다 !

 

본 논문의 기여도 요약

  • GT를 능가하는 비디오-텍스트 변환을 위한 새로운 STMC-트랜스포머 모델
  • 최신 SLT를 위한 트랜스포머의 첫 번째 성공적인 적용. PHINEX-Weather 2014T 및 ASLG-PC12 데이터셋에서 글로스-비디오-텍스트 변환이 모두 가능
  • SLT에서 wieght tying/transfer learning/앙상블 학습의 최초 사용 및 향후 연구를 뒷받침할 Transformer를 사용한 일련의 기본 결과

 

 

2. Methods

구어(spoken language) 간 기계번역(MT)이 상당히 발전했음에도 불구하고 수화처리는 여러 가지 이유로 뒤처져 있다.

구어와 달리 수화는 수동과 비수동 단서에 의존하는 다차원적 통신 형태이며, 이는 추가적인 컴퓨터 비전 문제를 제시한다(Asteriadis et al., 2012).

이러한 문제는 동시에 발생할 수 있는 반면 구어는 한 번에 하나씩 단어를 처리하는 선형 패턴을 따른다. Signs는 공간과 시간 모두에서 다양하며 단일 sign에 연결된 비디오 프레임의 수도 고정되지 않는다.

 

2.1 Sign Langauage Glossing

  • Glossing : 다른 문어로 수화를 한 글자 한 글자씩 표기하는 것
  • Glosse :  단지 수화 문장의 각 부분이 무엇을 의미하는지 나타낼 뿐 구어에서는 적절한 문장을 형성하지 못하기 때문에 번역과 다르다.

다양한 수화 말뭉치 프로젝트가 용어 주석을 위한 다른 지침을 제공했지만(Crasborn et al., 2007; Johnston, 2013), 프로젝트 간의 손쉬운 데이터 교환과 다른 수화 회사 간의 일관성을 방해하는 보편적인 표준은 없다.

  • Gloss annotation : 수화를 부정확하게 표현한 것. 1차원적인 글로스 줄(글로스 한 줄stream)으로 다채널 수화를 표현할 때 정보 병목 현상을 초래할 수 있다.

 

2.2 Sign Langauage Recognition

SLR : 비디오에서 분리된 단일 부호를 식별하는 것으로 구성.

연속 수화 인식(CSLR) :  실행 중인 비디오에서 실행 중인 Gloss의 시퀀스를 식별하는 비교적 어려운 작업

* 그러나 SLR과 CSLR에서는 시각적 인식만 수행하고 수화의 기본 언어 특성을 무시 !

 

2.3 Sign Langauage Translation

그림 1에서 볼 수 있듯이,

SLT 시스템은 입력 비디오를 글로스로 토큰화하기 위한 첫 단계로 CSLR을 사용 -> 추가 단계를 통해 용어들을 대상 언어로 유효한 문장으로 변환

 

SLT는 두 가지 단계를 수반하기 때문에 다른 번역 문제에 비해 참신하고 어렵다!

multi-cue 언어 비디오에서 의미 있는 피처 추출 -> 원본 언어에서 직접 번역하는 대신, 중간 gloss 표현에서 번역 생성

그림2

 

3. Related Work

3.1 Sign Language Recognition

  • SLR 초기 접근방식 - 수작업 기능에 의존. sequential dependencies을 모델링하기 위해 hidden 마르코프 모델 또는 Dynamic Time Warping(동적 시간 왜곡)을 사용한다.
  • SLR 최근 접근방식 - 2D 컨볼루션 신경망(2D-CNN)과 3D 컨볼루션 신경망(3D-CNN)이 수화 비디오의 시공간 표현을 효과적으로 모델링


CSLR에 대한 대부분의 기존 작업 - 정렬(alignment) 학습, 단일 gloss SLR, 시퀀스 구성의 세 가지 하위 작업으로 나누고, 다른 작업은 딥러닝을 사용하여 엔드 투 엔드 방식으로 작업을 수행한다.

 

3.2 Sign Language Translation

  • Camgoz et al.(2018) : SLT 공식화 - Phoenix-weather 2014T 데이터셋 소개, 2D-CNN 모델 공동 사용, 동영상 프레임에서 광택 수준 기능 추출, seq2seq 모델을 사용해 독일 수화 번역 수행
  • Camgoz et al.(2020) : 토큰화와 번역 모두에서 다중 작업 트랜스포머로 고무적인 결과를 얻지만 CSLR 성능은 기준 모델보다 워드 오류율이 더 높은 차선책
  • Ko et al.(2019) : 인간 키포인트를 추정해 glosse을 추출한 뒤 seq2seq 모델을 사용해 한국어 수화 번역 수행
  • Arvanitis et al.(2019) : seq2seq 모델을 사용하여 ASLG-PC12 데이터 세트의 ASL 광택을 변환한다.

 

3.3 Neural Machine Translation

신경기계번역(NMT) : 신경망을 활용해 자동 텍스트번역을 수행한다.

 

  • 이전 접근방법 - 인코더와 디코에 반복 및 컨볼루션 네트워크 사용
  • 최신 방법 - 일반적으로 seq2seq 모델이라고도 하는 인코더-디코더 아키텍처를 사용

* 표준 seq2seq 네트워크는 정보 병목 현상을 야기하지 않고 큰 입력 문장의 장기 의존성을 모델링할 수 없다!

-> 이 문제를 해결하기 위해 최근 작품에서는 인코더와 디코더 hidden state 사이의 상황에 따른 정렬 점수를 계산하는 주의 메커니즘(attention mechanism)을 사용.

Vaswani et al. (2017) : NMT에서 최신 결과를 얻는 self-attention에 의존하는 seq2seq 모델인 Transformer를 소개

 

 

4. Model architecture

비디오에서 텍스트로의 번역을 위해 그림2와 같은 STMC-Transformer network 제안

4.1 Spatial-Temporal Multi-Cue (STMC) Network

우리는 SLT에 STMC network를 최초로 사용 !

 

자급자족 pose estimation 분기가 있는 Spatial Multi-Cue (SMC) 모듈이 입력 비디오를 여러 시각적 신호(얼굴, 손, 풀프레임 및 포즈)의 공간적 특징으로 분해 -> TMC 블록과 TP(temporal multi-cueue) 계층이 쌓인 Temporal Multi-Cue (TMC) 모듈은 서로 다른 시간 단계에서 intra-cue(단서 내) 및 inter-cue 사이의 시간 상관관계를 계산하여 각각의 고유한 cue를 동시에 보존...

  • 인터큐 intercue - 시퀀스 학습 및 추론을 위한 양반향 장기 단기 기억 단위 분석
  • 인터큐 피처 - 시퀀스 학습 및 추론을 위한 Connectionist(연결주의) 시간 분류 단위 분석

이 아키텍처는 수화 비디오의 여러 시각적 신호를 서로 협업하여 효율적으로 처리하고 3개의 SLR 벤치마크에서 최첨단 성능을 달성. PHENIX Weather 2014T 데이터 집합에서 SLR 작업에 대해 Word Error Rate 21.0을 달성.

 

-> STMC 관련 논문 하단에 첨부 !

 

4.2 Transformer

변환을 위해 log-likelihood를 극대화하기 위해 2개의 계층 Transformer를 학습.

여기서 D에는 gloss 텍스트 쌍(xi, yi)이 포함.


 

대부분의 구어 번역의 6개의 계층과 비교했을 때, 두 개의 계층이 6.1절에서 최적으로 나타났는데, 이는 데이터셋의 크기가 제한적이기 때문일 것이다...

 

 

5. Datasets

  • PHOENIX-Weather 2014T (Camgoz et al., 2018) / 피닉스-웨더 2014T (캄고즈 외, 2018)

이 데이터 세트는 독일 방송국인 피닉스의 일기예보 방송에서 발췌한 것.

구성 - 9명의 수화 사용자의 독일 수화 동영상 병렬 말뭉치 & 1,066개의 어휘가 포함된 gloss 수준 annotation & 2,887개의 어휘가 포함된 독일어 구어로 번역된 내용 & 7,096개의 교육 쌍 & 519개의 개발 및 642개의 테스트 쌍

 

  • ASLG-PC12 (Othman and Jemni, 2012) / ASLG-PC12(오스만과 젬니, 2012)

이 데이터 집합은 규칙 기반 접근 방식에 따라 ASL gloss로 변환된 프로젝트 구텐베르크의 영어 데이터.

87,709개의 교육 쌍을 가진 이 말뭉치를 사용하면 일반적으로 딥러닝 모델에 많은 데이터가 필요한 대규모 데이터셋에서 트랜스포머를 평가 O

다양한 수화에서 성능을 비교 O.

다만 수화로 된 동영상이 들어 있지 않고 반자동으로 생성돼 덜 복잡하다.

 

6. Experiments and Discussinos

Our model ~

  • PyTorch & Open-NMT 사용 제작
  • Transformer 구성 - 워드 임베딩 크기 512, gloss 수준 토큰화, 사인파(sinusoidal) 위치 인코딩, 2,048개의 hidden units 및 8개의 head
  • Adam 사용 - 최적화를 위해 β1 = 0.9, β2 = 0.998, Noam 학습률 스케줄, 0.1 dropout 및 0.1 라벨 평활(label smoothing)

 

  • 각 half-epoch 개발, 평가하여 patience 5를 가지고 early stopping(조기 중지) 시행
  • 디코딩 중에 생성된 <unk> 토큰은 attention weight가 가장 높은 소스 토큰으로 대체
  • <unk>기호가 언어 간에 직접 전치될 수 있는 고유 명사와 일치할 때 유용하다

 

우리는 이 새로운 응용 프로그램에 대한 최적의 설정을 찾기 위해 일련의 실험을 수행한다. 모델 성능 향상을 위해 이전 학습, 웨이트 타이, 앙상블링 등 고전 NMT에서 SLT로 자주 사용되는 다양한 기술로 동등하게 실험한다.

평가를 위해 BLEU, ROUZE, METER를 사용한다. BLEU의 경우 BLEU-1,2,3,4 점수를 보고하고 ROUZE 점수로 ROGEL F1 점수를 보고한다. 이러한 메트릭스를 통해 이전 작업과 직접 비교할 수 있다. METER는 여러 MT 작업에서 BLEU보다 인간 평가와의 상관관계가 더 높기 때문에 추가로 계산된다. 달리 지정되지 않은 모든 보고된 결과는 서로 다른 랜덤 시드로 10회 이상 평균화된다.

 

 

실험 두 그룹으로 나눈다!

  1. GT gloss annotation을 번역하여 FIX-Weather 2014T 및 ASLG-PC12 모두에서 완벽한 토큰화를 시뮬레이션하는 Gloss2Text(G2T)
  2. STMC-Transformer를 사용하여 FINEX-Weather 2014T에서 텍스트로 비디오 변환을 수행하는 Sign2Gloss2Text(S2G2T)

 

6.1 Gloss2Text(G2T)

G2T - 출처와 대상 문장의 언어적 차이, 자원 부족, 출처 문장 자체의 정보 손실이나 부정확성 때문에 구어 간 고전적인 번역 작업에 비해 참신하고 어려운 텍스트 대 텍스트 번역 작업


ASLG-PC12의 경우 많은 ASL gloss가 접두사가 추가된 영어 단어이므로 데이터 사전 처리 중에 이러한 접두사를 모두 제거. 또한 단어 크기를 줄이기 위해 훈련 중에 5번 이하로 나타나는 모든 gloss을 <unk>로 설정합니다.

 

표2

-> 표 2는 ASLG-PC12의 출처와 대상 법인이 서로 더 유사하며 공유 어휘가 많고 원시 데이터에서 상대적으로 높은 BLEU-4 점수가 있음을 보여준다. 이를 통해 더 크고 덜 까다로운 데이터셋에서 Transformer 성능을 비교할 수 있다.

 

 

Model size

 

Embedding schemes

Beam width

 

Ensembel decoding

 

 

 

 

6.2 German Sign2Gloss2Text(S2G2T)

 

 

7 Qualitative comparison

8 Conclusions and Future Work

 

 

 

 


 

 

 

+ STMC 논문 정리 첨부

"Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition"

 

[논문 정리] Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition

(CSLR 관련 STMC 논문) Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition https://arxiv.org/pdf/2002.03187.pdf Abstract CSLR(연속 수화 인식)에서 딥러닝의 성공에도 불구하고,..

rladuddms.tistory.com

 

댓글