본문 바로가기
Artificial Intelligence/Neural Networks

[ CVPR2022 / GML4VC ] 7. 비디오 이해를 위한 GNN 응용 (Graph ML for Video Understanding)

by SuperMemi 2022. 8. 25.
반응형

Graph Machine Learning for Visual Computing (GML4VC) Tutorial 


CVPR 2022 에서 Graph Machine Learning 에 대한 튜토리얼(tutorial)을 진행했습니다.
이에 대해 요약 정리 하는 시리즈 글입니다.


[이전 글]

2022.08.22 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 1. 개요 (Graph Machine Learning, GNNs)

2022.08.22 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 2. Open Remarks

2022.08.22 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 3. Geometric Deep Learning (Invariant, Equivariant)

2022.08.24 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 4. Graph Neural Networks(GNNS) 기본 개념 정리

2022.08.24 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 5. Pytorch Geometric 이란 무엇인가?

2022.08.25 - [AI/Graph Neural Networks] - [ CVPR2022 / GML4VC ] 6. Deep GNNs (심층 그래프 신경망) 기본 개념 정리

 

이전 글에 이어지는 내용입니다.


Graph ML for Video Understanding

 

bernard_talk.mp4

 

drive.google.com

from CVPR 2022 Tutorial:Graph ML for Video Understanding
from CVPR 2022 Tutorial:Graph ML for Video Understanding


Video Understanding Tasks

  • T1 : Temporal Activity Localization (TAL)
  • T2 : Video Language Grounding (VLG)
  • T3 : Active Speaker Detection (ASD)

T1 : Temporal Activity Localization (TAL)

Temporal 이란 시간 축 정도로 이해하시면 됩니다.

TAL 은 비디오 속에서 어떠한 행동이 언제 일어났는지를 알아내는 과제 입니다. 자세히 말하면, 비디오와 행동 클래스입력값으로 들어가면 출력값으로는 행동이 존재하는 비디오의 시작과 끝 시간(frame)이 됩니다.

즉, 시간 축으로 action detection을 하는 과제라고 생각하면 됩니다.

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

일반적으로 비디오는 짧은 길이의 Clip 의 모음으로 표현됩니다. 이 짧은 영상인 clip 을 학습하는 clip encoder가 존재합니다.

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

Clip encoder 를 통해 clip 들을 어떠한 Visual Representation 으로 변환할 수 있습니다. 

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

일반적으로, 이렇게 clip 단위로 변환된 visual representation 을 가지고 action detection 을 진행하게 됩니다.

 

하지만 여기서 문제가 발생합니다. 비디오에서 어떠한 행동은 여러 clip들에 연속해서 진행될 수 있습니다. 다시말하면, long-term dependency가 존재한다는 것이죠. 그러나 위의 방법은 짧은 길이의 clip을 단위로 판단을 하기 때문에 앞뒤 clip 간 정보를 공유하지 않습니다. 

 

이러한 문제를 해결하는 하나의 방법으로, Video 를 graph 라고 생각해 볼 수 있습니다. 각 clip 의 visual representation 을 하나의 노드라고 생각하고, 이들을 연결한 노드를 통해서 clip간 정보를 통합 할 수 있습니다. 

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

Graph-Based TAL

위의 내용을 정리한 그래프 기반의 TAL 모델을 자세히 보면, 시계 반대 방향으로 시간축을 형성하고 start node(Red), end node(Blue)를 잘 찾아내고 어떠한 행동인지를 분류하는 과제로 바뀝니다. 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

  • 비디오를 짧은 영상 단위인 Clip 들로 나누어 줍니다.
  • 각 clip을 graph node 라고 생각합니다.
  • edge에는 두가지 종류가 있습니다.
    • 하나는 Semantic Connection(Dynamic) 이며,
    • 다른 하나는 Temporal Connection(Static) 입니다. 

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding
from CVPR 2022 Tutorial:Graph ML for Video Understanding
from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

Multi Scale Localization

from CVPR 2022 Tutorial:Graph ML for Video Understanding


T2 : Video-Language Grounding (VLG)

VLG 과제는 비디오와 어떤 텍스트가 주어졌을때 해당하는 위치를 찾는 과제입니다. 

아래의 예시를 자세히 보면, Query C 에는 again 이라는 단어가 추가 되었습니다. 언어적인 이해와 더불어 맥락적인 정보를 잘 이해할 수 있어야 합니다.

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

비디오 뿐만 아니라, 언어 텍스트에 대해서도 Graph Neura Network를 진행합니다. 이후 Graph Matching 알고리즘을 이용하여 언어와 동영상의 매칭을 완성합니다. 

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding
from CVPR 2022 Tutorial:Graph ML for Video Understanding

 


T3 : Active Speaker Detection (ASD)

 

비디오에서 언제 어디서 누가 말하고 있는지를 찾아내는 과제입니다.

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding

 

from CVPR 2022 Tutorial:Graph ML for Video Understanding


Conclusion

비디오 뿐만아니라 GNNs의 유연성을 통해 Multi-Modality 쪽으로 확장이 잘 되는 것 같습니다. 

어렵네요 ㅋㅋ

from CVPR 2022 Tutorial:Graph ML for Video Understanding


 

반응형