본문 바로가기
Stay Hungry Stay Foolish/논문 정리

[논문 정리] Memory Enhanced Global-Local Aggregation for Video Object Detection

by HANNI하니 2020. 12. 7.

Memory_Enhanced_Global-Local_Aggregation_for_Video_Object_Detection.pdf
0.97MB

https://github.com/Scalsol/mega.pytorch

 

Scalsol/mega.pytorch

Memory Enhanced Global-Local Aggregation for Video Object Detection, CVPR2020 - Scalsol/mega.pytorch

github.com

완벽하게 이해하진 못했으나, 내용을 계속 익숙하게 머리에 들어오도록 하기위하여 업로드한다..!

MEGA(Memory Enhanced Global-Local Aggregation)

 

 

Memory Enhanced Global-Local Aggregation for Video Object Detection

 

Object Detection in Videos

(사람들이 물체의 정체성에 대해 확신하지 못할 때)

1. Global Semantic Information

우리는 현재의 개체와 높은 의미적 유사성을 공유하는 다른 프레임과는 구별되는 개체를 찾아 그것들을 함께 할당하는 방법을 모색할 것이다.

그러나 의미론적 정보만으로는 사물의 존재 여부를 확신할 수 없는 경우에 실패한다.

Ex) 어둠 속을 걷고 있는 검은 고양이. 그 사례의 존재가 아직 핵심 프레임에서 승인되지 않았기 때문에, 우리는 그것이 어디에 있는지 우리에게 알려 주는 의미적 정보에 의존할 수 없었다.

 

Global aggregation method

의미 정보로 직접 픽셀이나 박스 기능을 강화하고자 한다.

시간적 범위의 국소성에 어느 정도 의존하는 상자 사이의 광학적 흐름이나 위치 관계와는 달리 의미적 유사성은 시간적 거리와 다소 독립적이다.

그러나, 한편으로 국소성을 없애는 것은 고정된 시간적 창을 넘어 풍부한 정보를 활용하는 모델을 가능하게 할 수 있고, 다른 한편으로 국소화 시 국소화 정보의 부족은 약점을 야기할 수 있다.

 

2. Local Localization Information

검은 고양이 문제는 근처의 프레임이 주어지면 완화될 수 있다. 근처 프레임의 차이에 의해 계산된 움직임과 같은 정보로, 우리는 키 프레임의 물체를 국소화할 수 있었다.

일반적으로, 사람들은 주로 이 두 가지 정보 원천으로 사물을 식별한다. Global Semantic Information + Local Localization Information

 

Local aggregation method

주로 국부 시간 범위의 정보를 활용하여 현재 프레임의 탐지를 돕는다.

FGFA, MANetFlowNet에서 예측한 광학 흐름을 활용하여 프레임 전체에 형상을 전파한다.

STSN, STMN과 같은 방법은 광학 흐름 없이 피쳐를 정렬하고 집계하는 방법을 직접 학습한다.

이러한 픽셀 레벨 집계 방식 외에도 RDNRelation Network 기반의 RDN이 로컬 범위에서 서로 다른 프레임의 후보 박스 사이의 관계를 직접 학습해 박스 레벨 기능을 강화한다.

 

Optical Flow 광학 흐름

동작 추정 방법. 광학 흐름은 물체와 카메라 사이의 상대적인 움직임에 의해 발생하는 연속적인 시퀀스 프레임 사이에서 물체의 움직임이다. 개체의 픽셀 강도가 연속된 프레임 간에 일정하다고 가정. Taylor Series 근사치를 이용하여 유량 벡터를 얻는다.

Sparse Optical Flow : track a few "feature" pixels /  Dense Optical Flow : estimate the flow of all pixels in the image.

문제

1. 비효율적인 문제

그림 (b)와 같이 의미 및 국소적 정보를 짧은 국소적 범위에서 모두 활용하는 것을 고려한다. 그림 (c)와 같이 상자 사이의 의미적 영향을 고려한다.

불행하게도, 이러한 방법들 중 어느 것도 local 정보와 global 정보를 함께 보는 것은 아니다.

 

2. 불충분한 문제

집계를 위한 프레임의 크기인데, 이것은 키 프레임이 수집할 수 있는 정보의 양을 의미한다.

이전의 최첨단 방법에서는 그림 (b) (c)와 같이 형상 집계를 위해 1-2초밖에 지속되지 않는 20~30개의 기준 프레임만 선택한다. 이 규모에서 집계의 크기는 국부적 영향이나 전지구적 영향력의 불충분한 근사치다.

 

 

예비 및 관계 모듈 (Preliminary and Relation Module)

비디오 오브젝트 검출의 목표는 비디오의 모든 프레임에 대해 검출 결과를 주는 것이다.

검출할 현재 프레임이 𝐼_𝑘이고 𝐵_𝑡 = {𝑏_𝑡^𝑖}() 각 프레임에서 RPN에 의해 생성된 후보 상자를 나타낸다고 가정하자.

인접 프레임의 모든 후보 상자는 함께 그룹화하여 로컬 풀, L을 형성한다.

글로벌 기능의 경우 순서 인덱스 시퀀스를 임의로 섞어서 셔플링 인덱스 시퀀스 S를 얻은 다음 순차적으로 𝑇_𝑔 프레임을 선택하고 그 안의 모든 박스를 그룹화하여 글로벌 풀을 형성한다. G로 표기할 수 있다.

마침내 키 프레임이 캐시된 정보를 이용할 수 있도록 하기 위해 이전 프레임의 검출 과정에서 생산된 중간 기능을 저장하는 새로운 롱 레인지 메모리 모듈 M이 도입된다.

우리의 궁극적인 목표는 L으로 키 프레임의 모든 후보 박스들에 분류와 회귀 결과를 주는 것이다.

 

각 상자 bi

각 상자의 semantic featureft이다.

각 상자의 localization featuregt이다.

gi는 공간정보(공간정보, , 중심위치)와 시간정보(프레임번호)를 모두 나타낸다.

 

댓글