평가
평가 지표기준
- 신뢰성
- 답변 관련성: 사용자의 질문 의도와 주제에 맞는지
- 프롬프트 Alignment: 프롬프트 템플릿에서 제시한 지침을 얼마나 준수했는지
- 정확성: 답변이 사실에 기반하고 오류가 없는지
- 환각: 허위 정보나 근거 없는 내용이 포함되어 있는지
- 문맥 관련성: 참고 자료가 사용자의 질문과 관련성이 높은지
- 책임 메트릭: 편향적이거나 유해한 내용이 포함되어 있는지
- 작업완료 시간: 답변을 생성하는 데 걸리는 시간
- 효율성: 답변을 생성하는 데 사용하는 컴퓨팅 자원의 양
- 사용자 만족도: 사용자가 답변에 얼마나 만족하는지
자체 벤치마크 구현이 필요
- 목적과 범위를 정의
- 시나리오와 태스크를 설계
- 질문 데잍터와 정답을 수집
- 평가 지표와 방법론을 선택
- 평가를 실행하고 결과를 분석
- 결과를 개선하기 위한 조치
평가 도구
한국어 성능 평가를 위한 데이터셋
- KorNAT
- KMMLU
- KMMLU-HARD
- HAE-RAE Bench