Benchmark Detail
MMLU-Pro
일반 지식: 넓은 일반 지식, 시험형 문제, 기본 reasoning 비교
공식 리더보드 보기
범용 지식 비교의 기준점으로는 좋지만, 실제 업무 자동화 성능은 따로 봐야 합니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크MMLU보다 어려운 다지선다 지식/추론 평가입니다.
범용 지식 비교의 기준점으로는 좋지만, 실제 업무 자동화 성능은 따로 봐야 합니다.