Benchmark Detail

LMArena

체감 품질: 일반 대화, 글쓰기, 설명력, 한국어처럼 사람이 읽었을 때 좋은 답변

공식 리더보드 보기 랭킹이 높으면 ‘사람이 선호한 답변’에 강하다는 뜻입니다. 전문 코딩이나 수학 성능과는 별개로 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

사람이 두 모델 답변을 직접 비교해 더 나은 쪽을 고르는 공개 아레나 리더보드입니다.

랭킹이 높으면 ‘사람이 선호한 답변’에 강하다는 뜻입니다. 전문 코딩이나 수학 성능과는 별개로 봐야 합니다.