역사상 가장 뜨거운 ECCV가 열렸고 이 논문들은 정말 흥미롭습니다.

컴퓨터 비전 분야 3대 국제 학회 중 하나인 ECCV 2020이 8월 23일부터 27일까지 온라인으로 개최되었습니다. 올해 ECCV는 총 1,361편의 논문을 접수했습니다. 우리는 독자들과 공유하기 위해 가장 인기 있는 논문 15개를 선정했습니다.
전염병의 영향으로 인해 올해의 ECCV 2020은 다른 주요 컨퍼런스와 마찬가지로 오프라인에서 온라인으로 전환되어 8월 23일에 시작되었습니다.

ECCV는 유럽 컴퓨터 비전 학회(European Conference on Computer Vision, ECCV)의 약자로,이는 컴퓨터 비전 분야의 3대 국제 학술대회 중 하나이며(나머지 두 개는 CVPR, ICCV), 2년마다 개최됩니다.
올해의 전염병으로 인해 많은 사람의 계획이 틀어졌지만, 과학 연구와 논문 제출에 대한 열정은 여전히 변함없습니다. 통계에 따르면,ECCV 2020에는 총 5,025건의 유효 제출물이 접수되었는데, 이는 이전 세션(2018년)의 제출물 수의 두 배 이상이며, 따라서 "역사상 가장 인기 있는 ECCV"로 여겨집니다.
마지막으로 1,361편의 논문이 게재 승인을 받았으며, 승인률은 27%였습니다.승인된 논문 중에는 구두 발표 논문이 104편으로 전체 유효 제출물의 2%를 차지하고, 주목 논문은 161편으로 약 3%를 차지합니다. 나머지 논문은 포스터입니다.
포즈 추정, 3D 포인트 클라우드, 우수 논문 목록
올해 컴퓨터 비전 분야의 이 대규모 행사는 어떤 흥미로운 연구 결과를 가져왔을까요?
우리는 3D 객체 감지, 포즈 추정, 이미지 분류, 얼굴 인식 등 다양한 방향을 다루는 선정된 논문 중에서 15편의 논문을 선정했습니다.
보행자 재식별 "방해하지 마세요: 다른 보행자의 방해를 받는 상황에서의 보행자 재식별"

단위:화중과학기술대학교, 중산대학교, 텐센트 유투랩
요약:
기존의 인물 재식별은 잘린 이미지에 단 한 명의 사람만 포함되어 있다고 가정합니다. 그러나 사람이 많은 장면에서는 기성 감지기로는 배경 보행자나 인간 가리개가 많은 부분에 여러 사람이 있는 경계 상자를 생성할 수 있습니다.
보행자 간섭이 있는 이러한 이미지에서 추출한 특징은 간섭 정보를 포함할 수 있으며, 이로 인해 잘못된 검색 결과가 나올 수 있습니다.
이 문제를 해결하기 위해 본 논문에서는 새로운 딥 네트워크(PISNet)를 제안한다. PISNet은 먼저 쿼리 이미지 유도 주의 모듈을 사용하여 이미지 내 대상의 특징을 향상시킵니다.
또한, 다른 보행자의 간섭을 억제하기 위한 주의 모듈을 개발하기 위해 역방향 주의 모듈과 다중 사람 분리 손실 함수를 제안한다.우리의 방법은 두 개의 새로운 보행자 간섭 데이터세트를 통해 평가되었으며, 그 결과 이 방법이 최첨단 Re-ID 방법보다 우수한 것으로 나타났습니다.

포즈 추정 "다중 시점 기하학을 통한 혼잡한 장면에서 여러 사람의 3D 포즈 추정"

단위:존스홉킨스 대학교, 싱가포르 국립대학교
요약:
극값 제약조건은 현재 다중 머신 3D 인간 자세 추정 방법에서 특징 매칭과 깊이 추정의 핵심 문제입니다. 이 공식은 군중이 적은 장면에서는 만족스럽게 작동하지만, 군중이 많은 장면에서는 두 가지 출처의 모호성으로 인해 종종 효과성에 문제가 있습니다.
첫 번째는 관절과 에피폴라 선 사이의 유클리드 거리가 제공하는 간단한 단서로 인해 발생하는 인간 관절의 불일치입니다. 두 번째 문제는 문제를 최소 제곱법으로 단순하게 최소화함으로써 견고성이 부족하다는 것입니다.
이 기사에서는,우리는 다중인종 3D 포즈 추정 공식에서 벗어나 이를 군중 포즈 추정으로 재구성합니다.우리의 접근 방식은 두 가지 핵심 요소로 이루어져 있습니다. 빠른 교차 시점 매칭을 위한 그래픽 모델과 3D 인간 자세 재구성을 위한 최대 사후(MAP) 추정치입니다. 우리는 4개의 벤치마크 데이터세트에 대한 접근 방식의 효과와 우수성을 입증합니다.

이미지 설명 《장면 그래프 분해를 통한 자연어 설명 생성》

단위:위스콘신-매디슨 대학교 텐센트 AI 랩
요약:
본 논문에서는 장면 그래프 분해를 기반으로 한 자연어 설명 생성 방법을 제안한다.
자연어를 사용하여 이미지를 설명하는 것은 어려운 작업입니다. 본 논문에서는 이미지 장면 그래프 표현을 검토하고 장면 그래프 분해를 기반으로 이미지의 자연어 설명을 생성하는 방법을 제안한다. 이 방법의 핵심은 그림에 해당하는 장면 그래프를 여러 개의 하위 그래프로 분해하는 것입니다. 각 하위 그래프는 콘텐츠의 일부 또는 이미지 영역의 일부에 해당합니다.신경망을 통해 중요한 하위 그래프를 선택하여 이미지를 설명하는 완전한 문장을 생성함으로써, 이 방법은 정확하고 다양하며 제어 가능한 자연어 설명을 생성할 수 있습니다.연구자들은 또한 광범위한 실험을 수행했고, 그 결과는 이 새로운 모델의 장점을 보여주었습니다.

3D 포인트 클라우드를 위한 쿼터니언 등가 캡슐 네트워크

단위:스탠포드 대학교, 도르트문트 공과대학교, 파도바 대학교
요약:
우리는 회전, 변환 및 순열의 SO(3) 그룹과 동일한 포인트 클라우드를 처리하기 위한 3D 캡슐 아키텍처를 제안합니다.
네트워크는 입력 포인트 클라우드에서 계산된 희소한 로컬 참조 프레임 집합에서 작동합니다. 네트워크는 동등 분산 동적 라우팅 프로세스를 포함하는 새로운 3D 사원수 군 캡슐 계층을 통해 종단 간 분산을 달성합니다.
캡슐 레이어를 사용하면 기하학을 포즈에서 분리하여 보다 정보적이고 구조화된 잠재 공간을 만드는 길을 열 수 있습니다.이를 통해 우리는 캡슐 간의 동적 라우팅 프로세스를 반복적으로 가중된 최소 제곱법(IRLS) 문제를 해결하는 잘 알려진 바이스펠트 알고리즘에 이론적으로 연결하여 수렴 특성을 증명하고, 이를 통해 캡슐 계층 전체에서 강력한 포즈 추정을 달성합니다.
희소 등가 사원수 캡슐 덕분에 우리 아키텍처는 공동 객체 분류 및 방향 추정을 가능하게 하며, 이를 공통 벤치마크 데이터 세트에서 경험적으로 검증합니다.

얼굴 인식 《설명 가능한 얼굴 인식》

단위:시스템 및 기술 연구, Visym Labs
요약:
설명 가능한 얼굴 인식(약칭 XFR)은 얼굴 매처에서 반환된 매칭 결과를 설명하는 문제입니다.이는 감지기가 어떤 신원과는 일치하고 어떤 신원과는 일치하지 않는 이유에 대한 통찰력을 제공합니다.이 원리를 이해하면 사람들이 얼굴 인식을 신뢰하고 설명하는 데 도움이 될 수 있습니다.
본 논문에서는 XFR에 대한 최초의 포괄적인 벤치마크 및 베이스라인 평가를 제공합니다. 우리는 "인페인팅 게임"이라 불리는 새로운 평가 체계를 정의했습니다. 이는 95명의 피험자로부터 추출한 3648개의 트리플릿(탐침, 짝짓기, 짝이 아닌 것)을 큐레이팅하여 선택된 얼굴 특징(코, 눈썹, 입 등)을 합성적으로 인페인팅하여 패치된 짝이 아닌 것을 만드는 것입니다.
XFR 알고리즘의 과제는 각 삼중체에 대해 칠해진 일치하지 않는 영역이 아니라, 프로브 이미지의 어느 영역이 쌍을 이루는 이미지와 일치하는지를 가장 잘 나타내는 네트워크 주의 맵을 생성하는 것입니다. 이는 얼굴 일치에 도움이 되는 이미지 영역을 정량화하는 기준을 제공합니다.
마지막으로, 세 가지 얼굴 매칭 시스템에 대한 다섯 가지 최첨단 알고리즘을 비교하여 이 데이터 세트에 대한 포괄적인 벤치마크를 제공합니다. 이 벤치마크에는 Subtree EBP와 Density-based Input Sampling Explanation(DISE)이라는 두 가지 새로운 알고리즘이 포함되어 있으며, 이는 기존의 최첨단 기술보다 상당히 우수한 성능을 발휘합니다.
또한, 이러한 네트워크 주의 기술에 대한 새로운 이미지에 대한 정성적 시각화를 보여주고, 이러한 설명 가능한 얼굴 인식 모델이 얼굴 매처의 투명성과 신뢰성을 어떻게 향상시킬 수 있는지 살펴봅니다.

연령 추정 《수명을 연령으로 변환하는 합성》

단위:워싱턴 대학교, 스탠포드 대학교, 어도비 연구소
요약:
우리는 단일 사진에 대한 연령 진행 및 회귀 문제를 해결하여 사람이 미래나 과거에 어떻게 보일지 예측합니다.
기존의 노화 방법은 대부분 질감을 바꾸는 데 국한되어 있으며, 인간의 노화와 성장에 따른 머리 모양의 변화를 무시합니다. 이로 인해 기존 방법을 노령층에 적용하는 데 한계가 있으며, 이러한 방법을 어린이 사진에 적용해도 고품질의 결과가 나오지 않습니다.
우리는 학습된 잠재 공간이 지속적인 양방향 노화 과정을 모델화하는 새로운 다중 도메인 이미지-이미지 생성적 적대 네트워크 아키텍처를 제안합니다.네트워크는 FFHQ 데이터 세트를 사용하여 학습되었으며, 연령, 성별, 의미적 세분화에 따라 레이블을 지정했습니다. 고정된 연령 계층을 기준점으로 사용하여 연속적인 연령 변환을 근사화합니다.우리의 프레임워크는 단 한 장의 사진만으로 0세에서 70세까지의 완전한 머리 사진을 예측하고, 질감과 머리 모양을 수정할 수 있습니다.우리는 다양한 사진과 데이터세트에 대한 결과를 제시하고, 최첨단 기술에 비해 상당한 개선이 있었음을 보여줍니다.

포털: 논문, 코드, 모두 한 번의 클릭으로
위에 언급한 내용은 ECCV 2020에 선정된 수천 편의 논문 중 빙산의 일각에 불과합니다. 그러나 1,361편이라는 엄청난 양의 논문을 접하다 보면 관심 있는 논문은 물론, 원본 링크, 코드 등을 찾는 것이 쉽지 않습니다.
그러나, 페이퍼 다이제스트 팀 이 팀은 독자들에게 길을 열어 주었고, 이제 논문과 코드를 찾는 것은 더 이상 문제가 되지 않습니다.
해당 팀은 최근 ECCV 2020 논문의 주요 내용을 한 문장으로 요약하여 발표했습니다.각 논문은 간결하고 요점을 잡은 한 문장으로 요약되었으며, 논문 주소가 첨부되었습니다.독자들이 가장 읽고 싶은 논문을 빠르게 찾을 수 있도록 해줍니다.

다음 주소를 이용해 보세요:
또한 그들은 코드를 발표한 논문 170편도 주의 깊게 정리했습니다. 독자는 해당 링크를 직접 클릭하여 코드를 볼 수 있습니다.
또한, crossminds.ai는 구두 논문의 프레젠테이션도 편집했으며, 독자는 데모를 통해 논문에 나오는 기술을 더욱 명확하고 직관적으로 이해할 수 있는데, 매우 흥미롭습니다.
https://crossminds.ai/category/eccv%202020/
-- 위에--