NRF-TCC : 한국연구재단 기술사업화센터

요약 비디오 학습 표현 장치 및 방법이 개시된다. 일 실시예에 따른 비디오 표현 학습 장치는 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부; 비디오 임베딩 및 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 비디오 임베딩 및 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부; 이미지 임베딩 및 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 이미지 임베딩 및 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및 비디오 임베딩, 제 1 구성 임베딩, 제 2 구성 임베딩, 양성 샘플 및 음성 샘플을 이용하여 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함할 수 있다.

대표 청구항 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 상기 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 상기 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부;상기 비디오 임베딩 및 상기 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 상기 비디오 임베딩 및 상기 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부;상기 이미지 임베딩 및 상기 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 상기 이미지 임베딩 및 상기 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및상기 비디오 임베딩, 상기 제 1 구성 임베딩, 상기 제 2 구성 임베딩, 상기 양성 샘플 및 상기 음성 샘플을 이용하여 상기 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함하는, 비디오 표현 학습 장치.

대표 도면

전략기술 분류 인공지능
첨단 AI 모델링, 의사결정(인지,판단,추론)
출원번호 10-2023-0001241 KIPRIS
출원일 2023-01-04
공개번호
공개일
등록번호 10-2624074
등록일 2024-01-08
우선권 번호
우선권 국가
우선권 주장일
현재 상태 등록
현재 권리자 중앙대학교 산학협력단
IPC 코드 G06N-003/0895, G06N-003/045, G06N-003/0464

플랫폼 소개

기술이전·사업화 기술 정보

대학 국가전략기술 정보

IP 수익화 프로그램 정보

공지·알림

대학 정보 서비스

비디오 표현 학습 장치 및 방법