Benchmark Detail
VibeEval
체감형 평가: 일상 사용감, 글쓰기, 창의적 응답, 한국어 체감 품질을 볼 때
공식 리더보드 보기
정량 점수 하나보다 샘플 답변과 함께 봐야 합니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크사람이 실제로 느끼는 답변 품질과 선호를 평가하려는 benchmark입니다.
정량 점수 하나보다 샘플 답변과 함께 봐야 합니다.