언어자원 구축 수작업
어떤 전처리를 하나요?
1. 규칙에 준수하는 띄어쓰기를 정확하고 빠르게 적용 합니다.
2. Domain에 특화된 단어/표현 등의 의미사전을 구축하여 제공이 가능합니다.
1. 문장 분할/병합 (Normalization)
- 종결형/명사형 어미기준 분할 등
- 문장부호 기준 분할 등
2. 띄어쓰기 (Tokenization)
- 어문규범 및 우리말샘의 표제어 준수
- Domain 특화된 가이드라인 도출
3. 용어사전 구축 (Library)
- 특정 Domain 내 표현 및 신조어
- 오탈/오기 등 sub 라이브러리
언어자원 구축 Reference
Domain 특화된 전처리 수작업: Game, Q&A, 감성대화 등
1. Normalization 작업: 영역 특징을 고려한 정규화 작업
2. Tokenization 작업: 어문규정을 반영한 영역 고유의 가이드라인 도출
3. Library 작업: 커뮤니티, 전문가, Usage 등을 종합적으로 고려한 용어사전 구축
(주)스피링크 사업장 소재지: 서울시 서초구 태봉로 114, 양재 AI허브 5층
고객센터: 02.477.3666 팩스: 0504.267.5527 이메일: cs@spirink.com 대표이사:고경민
© 2015 - SPIRINK INC.