DW AI LAB · 한국어 AI 인텔리전스 새 근거가 확인되면 판단을 업데이트합니다.

벤치마크 상세

LMArena

체감 품질: 일반 대화, 글쓰기, 설명력, 한국어처럼 사람이 읽었을 때 좋은 답변

공식 리더보드 보기 랭킹이 높으면 ‘사람이 선호한 답변’에 강하다는 뜻입니다. 전문 코딩이나 수학 성능과는 별개로 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서

아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

읽는 법

전체 벤치마크

사람이 두 모델 답변을 직접 비교해 더 나은 쪽을 고르는 공개 아레나 리더보드입니다.

랭킹이 높으면 ‘사람이 선호한 답변’에 강하다는 뜻입니다. 전문 코딩이나 수학 성능과는 별개로 봐야 합니다.