언어자원 구축 수작업

어떤 전처리를 하나요?

1. 규칙에 준수하는 띄어쓰기를 정확하고 빠르게 적용 합니다. 

2. Domain에 특화된 단어/표현 등의 의미사전을 구축하여 제공이 가능합니다.

1. 문장 분할/병합 (Normalization)

- 종결형/명사형 어미기준 분할 등

- 문장부호 기준 분할 등

2. 띄어쓰기 (Tokenization)

- 어문규범 및 우리말샘의 표제어 준수

- Domain 특화된 가이드라인 도출

3. 용어사전 구축 (Library)

- 특정 Domain 내 표현 및 신조어

- 오탈/오기 등 sub 라이브러리

언어자원 구축 Reference

Domain 특화된 전처리 수작업: Game, Q&A, 감성대화 등

1. Normalization 작업: 영역 특징을 고려한 정규화 작업

2. Tokenization 작업: 어문규정을 반영한 영역 고유의 가이드라인 도출

3. Library 작업: 커뮤니티, 전문가, Usage 등을 종합적으로 고려한 용어사전 구축

(주)스피링크 사업장 소재지: 서울시 서초구 태봉로 114, 양재 AI허브 5층

고객센터: 02.477.3666 팩스: 0504.267.5527 이메일: cs@spirink.com 대표이사:고경민

© 2015 - SPIRINK INC.

페이스북
트위터
네이버 블로그
구글 플러스
floating-button-img