모델 성능/사용성 평가

언어 모델의 성능과 사용성에 대한 명확한 기준을 수립하여

입체적 평가를 통해 문제점을 찾아내고 개선합니다.

모델 성능 향상을 위한

학습 데이터 구축

모델 성능 향상을 목표로 특정 Task에 최적화된 데이터셋을 기획하고 구축합니다. 

고객사의 데이터를 활용하여 할루시네이션 문제를 해결하는 RAG(Retrieval Augmented Generation)에 적합한 정보 구조를 설계하고 데이터셋을 마련합니다.  

검색 증강 생성  RAG: Retrieval Augmented Generation

추론  Inference

QA  Question Answering

문장 완성  Sentence Completion

언어 이해  Language Understanding

의미 분석  Semantic Analysis

감성 분석  Sentiment Analysis

데이터 평가 항목

  • 챗봇/콜봇 등 대화형 AI, AI Agent를 사용자 관점에서 평가합니다. 국내외에서 인정받는 평가 방법론을 기반으로 End-user 중심 연구 성과를 반영, TEXTNET만의 서비스 맞춤형 지표를 개발하여 객관적이고 신빙성 있는 평가를 수행합니다. 


  • 평가 결과를 분석해 데이터 측면에서의 개선 방안을 제안합니다. 학습 데이터의 부족, 데이터 밸런스 문제, 데이터 정제가 필요한 경우 등 관련 개선점이 발견될 경우 그에 맞는 학습 데이터 구축이 가능합니다.

모델 평가 및 성능 검증

단순히 기존 벤치마크 데이터셋을 샘플링하는 것이 아닌 객관적이고 명확한 평가가 가능한 변별력 있는 데이터셋 개발에 주력합니다 .

dataset


평가 목적에 따른 데이터셋 구축


언어 전문가 그룹으로서 한국어 언어 처리와 이해에 대한 독보적인 역량을 바탕으로 한국어 언어 모델 평가 데이터셋을 구축하여 모델의 성능을 정확하게 평가합니다. 다양한 스펙의 모델을 아우르는 신뢰성과 대표성을 지닌 벤치마크 데이터셋으로 인공지능 산업 및 학계에 기여합니다. 

readiness_score


평가 가이드라인 기획 


도메인, End-user, 서비스 목적 및 형태 등 다양한 관점에서 모델을 평가하는 지표를 마련합니다. 고객의 니즈와 기호를 구조화하여 단어, 문장, 전체 맥락 단위에서 평가할 수 있도록 세밀하게 설계하며, 직관적인 지표로 평가 후 효율적인 개선 활동이 가능합니다. 

성공적인 AI Transformation,

TEXTNET과 함께 지금 바로 시작하세요!


LLM의 등장으로 새로운 시대를 맞이한 AI, 차이는 데이터가 만듭니다. 

이제는 대중화된 기술에 맞는 더 똑똑한 AI Transformation을 만나보세요.


Image by upklyak on Freepik