- 요약 일 실시예에 따른 토크나이저 생성 장치는 토크나이저를 훈련시키기 위한 훈련용 텍스트를 획득하는 동작; 상기 훈련용 텍스트를 문자 단위로 분절하되, 상기 훈련용 텍스트에 포함된 비어휘 문자를 기 설정된 개별 문자로 분절하는 분절 규칙에 기초하여 문자 시퀀스를 생성하는 동작; 상기 문자 시퀀스를 기준으로 기 설정된 길이의 문자 단위 내에서 소정 횟수 이상 등장하는 문자쌍을 추출하고, 상기 문자쌍의 병합 순서를 병합 규칙으로 생성하는 동작; 상기 문자쌍 각각에 고유한 식별 인덱스를 부여하여, 문자쌍과 인덱스 간의 매핑 정보로 구성된 사전을 생성하는 동작; 및 상기 병합 규칙 및 상기 사전을 기초로 입력된 텍스트를 토큰 시퀀스로 변환하는 토크나이저를 생성하는 동작을 수행할 수 있다.
- 대표 청구항
-
대표 도면
-
전략기술 분류
인공지능
산업활용, 혁신 AI - 출원번호 10-2025-0049951 KIPRIS
- 출원일 2025-04-17
- 공개번호 10-2025-0154267
- 공개일 2025-10-28
- 등록번호
- 등록일 1900-01-01
- 우선권 번호
- 우선권 국가
- 우선권 주장일
- 현재 상태 공개
- 현재 권리자
- IPC 코드 G06F 40/284|G06F 40/242|G06F 40/151|G06N 20/00
NRF-TCC AI 요약 뉴스레터 구독
NRF-TCC AI가 요약해주는 최신 기술이전 동향, 특허 정보, 수익화 프로그램 소식을
매주 월요일 10시에 이메일로 받아보세요.
Copyright ⓒ 한국연구재단 기술사업화센터 (NRF-TCC) All rights reserved.