Benchmark Detail

VibeEval

체감형 평가: 일상 사용감, 글쓰기, 창의적 응답, 한국어 체감 품질을 볼 때

공식 리더보드 보기 정량 점수 하나보다 샘플 답변과 함께 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

사람이 실제로 느끼는 답변 품질과 선호를 평가하려는 benchmark입니다.

정량 점수 하나보다 샘플 답변과 함께 봐야 합니다.