본문 바로가기

Stay Hungry Stay Foolish/논문 정리13

[논문 정리] Neural Sign Language Translation based on Human Keypoint Estimation Neural Sign Language Translation based on Human Keypoint Estimation (인간의 키포인트 추정을 기반으로 하는 수화 번역 시스템) https://arxiv.org/pdf/1811.11436v1.pdf Abstract 컴퓨터 비전 분야의 많은 문제 : 심층 신경망 모델을 훈련하기 위해 엄청난 양의 데이터 세트가 필요하다는 것 수화 번역 문제는 수준 높은 훈련 자료를 수집하기가 훨씬 더 어렵기 때문에 상황은 훨씬 더 심각하다. 본 논문에서는 고해상도 및 화질의 11,578개의 비디오로 구성된 KETI 수화 데이터 세트를 사용 -> 얼굴, 손 및 신체 부위에서 추출한 인간 키포인트 활용 -> 수화 비디오를 자연어 문장으로 변환하기 위한 신경망 모델 개발 획득한.. 2021. 9. 14.
[논문 정리] Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition (CSLR 관련 STMC 논문) Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition https://arxiv.org/pdf/2002.03187.pdf Abstract CSLR(연속 수화 인식)에서 딥러닝의 성공에도 불구하고, 딥 모델은 일반적으로 가장 차별적인 특징에 초점을 맞추고, 잠재적으로 중요하지 않고 유용한 다른 내용을 무시 (-) -> 서로 다른 시각적 신호(즉, 손 모양, 얼굴 표정 및 자세)의 콜라보 뒤에 숨겨진 시각적 문법을 학습하는 능력을 크게 제약 ! 본 논문은 1. 신경망 설계에 멀티큐 학습을 주입하여, 비전 기반 시퀀스 학습 문제를 해결하기 위한 STMC(spatial-temporal multi-cu.. 2021. 8. 19.
[논문 정리] Better Sign Language Translation with STMC-Transformer (수어 번역 관련 논문) Better Sign Language Translation with STMC-Transformer https://arxiv.org/pdf/2004.00588v2.pdf 0. Abstract 수화 번역 Sign Langauage Translation (SLT) : 수화 비디오 --(인식 시스템 SLR)--> 수화 Glosse 추출 --(번역 시스템)--> 구어 생성 먼저 수화를 인식 시스템을 사용하여 비디오에서 수화 Glosse을 추출하면, 추출한 수화 Glosse에서 번역 시스템이 구어를 생성한다. 본 논문은 ~ ! 번역 시스템에 초점. FIX-Weather 2014T 데이터셋의 글로스-투-텍스트 변환과 비디오-투-텍스트 변환에서 각각 5 및 7 BLEU 이상의 최신 기술을 향상.. 2021. 8. 12.
[논문 정리] Fast R-CNN Fast R-CNN R-CNN -> Fast R-CNN (R-CNN 한계점 극복) 1. R-CNN은 RoI(Region of Interest)마다 CNN 연산을 함으로써 속도가 저하되었다. -> Fast R-CNN "RoI pooling" 2. R-CNN은 multi-stage pipelines으로써 모델을 한번에 학습시키지 못했다. -> Fast R-CNN "CNN Feature 추출부터 classification, bounding box regression까지 하나의 모델에서 학습" Fast R-CNN Process 1. Selective Search를 통해 RoI 찾고 전체 이미지를 CNN에 통과시켜 feature map 추출 2. Selective Search로 찾았었던 RoI를 feature m.. 2021. 4. 7.
[논문 정리]Rich feature hierarchies for accurate object detection and semantic segme 참고자료는 밑에 첨부했습니다! Rich feature hierarchies for accurate object detection and semantic segmentationTech report (v5) Object Detection : 물체 검출 알고리즘은 여러 물체에 대해 어떤 물체인지 분류하는 이미지 분류와 그 물체가 어디 있는지 네모 박스(Bounding Box)를 통해 위치 정보를 나타내는 위치 문제 두 가지를 해내는 알고리즘이다. Object Detection 분야에서 두가지 키 인사이트를 조합하여 성능을 향상하였다. 1. Convolutional Neural Network 사용 및 bottom-up region proposal(Selective Search) 적용. 2. 학습 데이터가 부족할.. 2021. 3. 31.
[논문 정리] Very Deep Convolutional Networks For Large-Scale Image Recognition 참고자료는 밑에 첨부했습니다! Very Deep Convolutional Networks For Large-Scale Image Recognition 1. Introduction "Much Deeper Network, Much Smaller Filters" 2014년 처음으로 훨씬 더 깊은 deeper 네트워크 등장 from oxford VGG : Visual Geometry Group 16 : 레이어수 ImageNet에서 AlexNet의 오차율을 절반으로 줄임 Localization 1위 & Classification 2위 Top-5 테스트 정확도 92.7% => 어떻게 VGG 16~19 레이어와 같이 깊은 신경망 모델의 학습을 성공했을까? 그 이유는 모든 conv layer에서 3*3 filter를 .. 2021. 3. 16.
[논문 정리] ArcFace: Additive Angular Margin Loss for Deep Face Recognition 얼굴 인식 관련 논문이다! 얼굴 인식에 대한 매우 분별력 있는 Features를 얻기 위한 Additive Angular Margin Loss(ArcFace)에 대해 알아보자. 직접 논문정리를 하려고 했으나, 이미 잘 정리된 곳이 있어 불러왔다. ABSTRACT를 간단하게 읽고 읽는 것을 추천한다. ArcFace: Additive Angular Margin Loss for Deep Face Recognition Abstract One of the main challenges in feature learning using Deep Convolutional Neural Networks (DCNNs) for largescale face recognition is the design of appropriate .. 2020. 12. 15.
[논문 정리] Memory Enhanced Global-Local Aggregation for Video Object Detection https://github.com/Scalsol/mega.pytorch Scalsol/mega.pytorch Memory Enhanced Global-Local Aggregation for Video Object Detection, CVPR2020 - Scalsol/mega.pytorch github.com 완벽하게 이해하진 못했으나, 내용을 계속 익숙하게 머리에 들어오도록 하기위하여 업로드한다..! MEGA(Memory Enhanced Global-Local Aggregation) Memory Enhanced Global-Local Aggregation for Video Object Detection Object Detection in Videos (사람들이 물체의 정체성에 대해 확신하지 못할 때) 1.. 2020. 12. 7.
[논문 정리] Object Detection in the Context of Mobile Augmented Reality 오랜만에 논문 리뷰를 꼼꼼히 해서 아까워서 올려보려고 한다! 핵심 내용만 PPT로 만들어보았다. Methodology와 Evaluation만 담았고, AR환경에서 3D object detection 하는 과정에 대한 논문이다! 5초컷으로 보고 싶은 분들을 위하여, 잘 요약되어있는 adstract를 친절히 써보려고 한다. 중요하지 않아서 대부분 3,4번만 읽는 경우도 많지만 난 abstract를 알면 방향성이나 개요를 알고 읽어서 더 잘 읽히는 것 같다. 더보기로 첨부하겠다. Let's start! Object Detection in the Context of Mobile Augmented Reality 더보기 0. ABSTRACT 지난 몇 년 동안 수많은 CNN 모델과 프레임워크가 개발되어 RGB 영상에.. 2020. 11. 9.
[논문 정리] Mask R-CNN (2) 논문 내용과 별개로 Mask R-CNN의 특성상 추가적인 지식들이 필요해서 포스팅을 하려고 한다. 솔직히 RNN, CNN 개념이랑 과정 등등 아는 사람들만 Mask R-CNN을 공부하겠지,,,? RNN,CNN에 대해선 언급하지 않겠다. 그래도 공부하다보면 꽤 흥미롭다. 어려울뿐,,,,,,,,,,,,,ㅋ Mask R-CNN : 2017년 KaimingHe에 의해 제안된 알고리즘으로서 이미지 분류, 물체 검출을 동시에 할 수 있도록 고안되었으며 현재에도 많이 사용되고 있다. 영상 처리 분야에는 크게 4가지로, 이미지 분류(Image Classfication), 이미지 검출(Image Recognition), 물체 검출(Object Detection), 이미지 분할(Instance Segmentation)이 .. 2020. 9. 2.