Benchmark Detail
Humanity's Last Exam
프론티어 한계: frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교
공식 리더보드 보기
점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크기존 benchmark가 쉬워진 뒤 나온 고난도 종합 시험형 benchmark입니다.
점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.