평가

평가 지표기준

  • 신뢰성
  • 답변 관련성: 사용자의 질문 의도와 주제에 맞는지
  • 프롬프트 Alignment: 프롬프트 템플릿에서 제시한 지침을 얼마나 준수했는지
  • 정확성: 답변이 사실에 기반하고 오류가 없는지
  • 환각: 허위 정보나 근거 없는 내용이 포함되어 있는지
  • 문맥 관련성: 참고 자료가 사용자의 질문과 관련성이 높은지
  • 책임 메트릭: 편향적이거나 유해한 내용이 포함되어 있는지
  • 작업완료 시간: 답변을 생성하는 데 걸리는 시간
  • 효율성: 답변을 생성하는 데 사용하는 컴퓨팅 자원의 양
  • 사용자 만족도: 사용자가 답변에 얼마나 만족하는지

자체 벤치마크 구현이 필요

  • 목적과 범위를 정의
  • 시나리오와 태스크를 설계
  • 질문 데잍터와 정답을 수집
  • 평가 지표와 방법론을 선택
  • 평가를 실행하고 결과를 분석
  • 결과를 개선하기 위한 조치

평가 도구

한국어 성능 평가를 위한 데이터셋

  • KorNAT
  • KMMLU
  • KMMLU-HARD
  • HAE-RAE Bench