- 요약 비디오 학습 표현 장치 및 방법이 개시된다. 일 실시예에 따른 비디오 표현 학습 장치는 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부; 비디오 임베딩 및 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 비디오 임베딩 및 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부; 이미지 임베딩 및 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 이미지 임베딩 및 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및 비디오 임베딩, 제 1 구성 임베딩, 제 2 구성 임베딩, 양성 샘플 및 음성 샘플을 이용하여 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함할 수 있다.
- 대표 청구항 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 상기 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 상기 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부;상기 비디오 임베딩 및 상기 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 상기 비디오 임베딩 및 상기 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부;상기 이미지 임베딩 및 상기 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 상기 이미지 임베딩 및 상기 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및상기 비디오 임베딩, 상기 제 1 구성 임베딩, 상기 제 2 구성 임베딩, 상기 양성 샘플 및 상기 음성 샘플을 이용하여 상기 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함하는, 비디오 표현 학습 장치.
-
대표 도면
-
전략기술 분류
인공지능
첨단 AI 모델링, 의사결정(인지,판단,추론) - 출원번호 10-2023-0001241 KIPRIS
- 출원일 2023-01-04
- 공개번호
- 공개일
- 등록번호 10-2624074
- 등록일 2024-01-08
- 우선권 번호
- 우선권 국가
- 우선권 주장일
- 현재 상태 등록
- 현재 권리자 중앙대학교 산학협력단
- IPC 코드 G06N-003/0895, G06N-003/045, G06N-003/0464

































































Copyright ⓒ 한국연구재단 기술사업화센터 (NRF-TCC) All rights reserved.