벤치마크 상세

MMLU-Pro

일반 지식: 넓은 일반 지식, 시험형 문제, 기본 reasoning 비교

공식 리더보드 보기 범용 지식 비교의 기준점으로는 좋지만, 실제 업무 자동화 성능은 따로 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서

아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

읽는 법

전체 벤치마크

MMLU보다 어려운 다지선다 지식/추론 평가입니다.

범용 지식 비교의 기준점으로는 좋지만, 실제 업무 자동화 성능은 따로 봐야 합니다.