• 요약 일 실시예에 따른 토크나이저 생성 장치는 토크나이저를 훈련시키기 위한 훈련용 텍스트를 획득하는 동작; 상기 훈련용 텍스트를 문자 단위로 분절하되, 상기 훈련용 텍스트에 포함된 비어휘 문자를 기 설정된 개별 문자로 분절하는 분절 규칙에 기초하여 문자 시퀀스를 생성하는 동작; 상기 문자 시퀀스를 기준으로 기 설정된 길이의 문자 단위 내에서 소정 횟수 이상 등장하는 문자쌍을 추출하고, 상기 문자쌍의 병합 순서를 병합 규칙으로 생성하는 동작; 상기 문자쌍 각각에 고유한 식별 인덱스를 부여하여, 문자쌍과 인덱스 간의 매핑 정보로 구성된 사전을 생성하는 동작; 및 상기 병합 규칙 및 상기 사전을 기초로 입력된 텍스트를 토큰 시퀀스로 변환하는 토크나이저를 생성하는 동작을 수행할 수 있다.
  • 대표 청구항
  • 대표 도면
  • 전략기술 분류 인공지능
    산업활용, 혁신 AI

  • 출원번호 10-2025-0049951 KIPRIS
  • 출원일 2025-04-17
  • 공개번호 10-2025-0154267
  • 공개일 2025-10-28
  • 등록번호
  • 등록일 1900-01-01
  • 우선권 번호
  • 우선권 국가
  • 우선권 주장일

  • 현재 상태 공개
  • 현재 권리자
  • IPC 코드 G06F 40/284|G06F 40/242|G06F 40/151|G06N 20/00