• 요약 본 발명의 일 실시 예에 따른 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치는 학습용 이미지를 입력 받아 이로부터 시각적 특징자(Visual Feature)를 생성하고, 상기 생성한 시각적 특징자를 이용하여 상기 학습용 이미지의 분류 결과를 생성하여 출력하며, 제1 손실 함수(Ltask)를 이용하여 학습을 진행하는 이미지 분류부, 학습용 텍스트를 입력 받아 이로부터 텍스트적 특징자(Textual Feature)를 생성하고, 상기 시각적 특징자와 텍스트적 특징자를 맵핑시키며, 제2 손실 함수(Lalign)를 이용하여 학습을 진행하는 이미지-텍스트 결합부 및 상기 시각적 특징자 및 상기 생성한 학습용 이미지의 분류 결과를 입력 받아 이에 근거하여 상기 학습용 이미지를 설명하는 텍스트(Text)를 생성하며, 제3 손실 함수(Lexpl)를 이용하여 학습을 진행하는 텍스트 설명 생성부를 포함하며, 상기 학습용 이미지는, 하나 이상의 클래스(Class)에 대하여 하나 이상의 도메인으로 표현한 하나 이상의 이미지이며, 상기 학습용 텍스트는, 상기 하나 이상의 클래스에 대하여 하나 이상의 텍스트로 설명한 하나 이상의 텍스트이고, 상기 학습용 이미지 및 학습용 텍스트는 하나의 학습용 데이터셋에 포함된다.
  • 대표 청구항 학습용 이미지를 입력 받아 이로부터 시각적 특징자(Visual Feature)를 생성하고, 상기 생성한 시각적 특징자를 이용하여 상기 학습용 이미지의 분류 결과를 생성하여 출력하며, 제1 손실 함수(Ltask)를 이용하여 학습을 진행하는 이미지 분류부; 학습용 텍스트를 입력 받아 이로부터 텍스트적 특징자(Textual Feature)를 생성하고, 상기 시각적 특징자와 텍스트적 특징자를 맵핑시키며, 제2 손실 함수(Lalign)를 이용하여 학습을 진행하는 이미지-텍스트 결합부; 및상기 시각적 특징자 및 상기 생성한 학습용 이미지의 분류 결과를 입력 받아 이에 근거하여 상기 학습용 이미지를 설명하는 텍스트(Text)를 생성하며, 제3 손실 함수(Lexpl)를 이용하여 학습을 진행하는 텍스트 설명 생성부; 를 포함하며,상기 학습용 이미지는, 하나 이상의 클래스(Class)에 대하여 하나 이상의 도메인으로 표현한 하나 이상의 이미지이며, 상기 학습용 텍스트는, 상기 하나 이상의 클래스에 대하여 하나 이상의 텍스트로 설명한 하나 이상의 텍스트이고,상기 학습용 이미지 및 학습용 텍스트는 하나의 학습용 데이터셋에 포함되는, 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치에 있어서, 상기 텍스트 설명 생성부는, 제1 LSTM(Long Short Term Memory) 레이어 및 제2 LSTM 레이어를 포함하며, 상기 제2 LSTM 레이어는, 상기 제1 LSTM 레이어의 출력 토큰과 상기 시각적 특징자 및 학습용 이미지의 분류 결과를 입력 받아 상기 텍스트 설명 생성부가 보유하고 있는 각 단어의 softmax 확률 값을 생성하여 가장 높은 확률 값을 가진 단어 토큰를 출력하고, 상기 단어 토큰의 출력은, 상기 제2 LSTM 레이어가 출력한 단어 코튼이 EOS(End Of Sentence token) 또는 사전에 설정한 샘플링 단어 토큰의 개수를 만족할 때까지 반복되는, 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치.
  • 대표 도면
  • 전략기술 분류 인공지능
    첨단 AI 모델링, 의사결정(인지,판단,추론)

  • 출원번호 10-2023-0047711 KIPRIS
  • 출원일 2023-04-11
  • 공개번호
  • 공개일
  • 등록번호 10-2622435
  • 등록일 2024-01-03
  • 우선권 번호
  • 우선권 국가
  • 우선권 주장일

  • 현재 상태 등록
  • 현재 권리자 고려대학교산학협력단
  • IPC 코드 G06V-010/764, G06V-010/774, G06V-030/19, G06V-010/80, G06V-010/46