• 요약 비디오 학습 표현 장치 및 방법이 개시된다. 일 실시예에 따른 비디오 표현 학습 장치는 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부; 비디오 임베딩 및 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 비디오 임베딩 및 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부; 이미지 임베딩 및 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 이미지 임베딩 및 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및 비디오 임베딩, 제 1 구성 임베딩, 제 2 구성 임베딩, 양성 샘플 및 음성 샘플을 이용하여 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함할 수 있다.
  • 대표 청구항 비디오 데이터로부터 비디오 특징을 추출하여 비디오 임베딩 (embedding)을 생성하는 학생 네트워크(student network), 상기 비디오 데이터로부터 추출된 이미지 데이터로부터 이미지 특성을 추출하여 이미지 임베딩을 생성하는 제 1 교사 네트워크(teacher network) 및 상기 비디오 데이터로부터 추출된 오디오 데이터로부터 오디오 특성을 추출하여 오디오 임베딩을 생성하는 제 2 교사 네트워크를 포함하는 특징 추출부;상기 비디오 임베딩 및 상기 이미지 임베딩에 기초한 제 1 구성 임베딩(compositional embedding)을 생성하는 제 1 구성 신경망 및 상기 비디오 임베딩 및 상기 오디오 임베딩에 기초한 제 2 구성 임베딩을 생성하는 제 2 구성 신경망을 포함하는 구성 임베딩 네트워크부;상기 이미지 임베딩 및 상기 오디오 임베딩 간 연관 관계를 추정하도록 학습된 샴 신경망(Siamese Neural Network)을 이용하여 상기 이미지 임베딩 및 상기 오디오 임베딩을 기초로 양성 샘플(positive samples) 및 음성 샘플(negative samples)을 생성하는 샘플 생성부; 및상기 비디오 임베딩, 상기 제 1 구성 임베딩, 상기 제 2 구성 임베딩, 상기 양성 샘플 및 상기 음성 샘플을 이용하여 상기 학생 네트워크를 학습시키기 위한 하나 이상의 손실 함수를 생성하는 대조 학습부를 포함하는, 비디오 표현 학습 장치.
  • 대표 도면
  • 전략기술 분류 인공지능
    첨단 AI 모델링, 의사결정(인지,판단,추론)

  • 출원번호 10-2023-0001241 KIPRIS
  • 출원일 2023-01-04
  • 공개번호
  • 공개일
  • 등록번호 10-2624074
  • 등록일 2024-01-08
  • 우선권 번호
  • 우선권 국가
  • 우선권 주장일

  • 현재 상태 등록
  • 현재 권리자 중앙대학교 산학협력단
  • IPC 코드 G06N-003/0895, G06N-003/045, G06N-003/0464