Benchmark Detail

Humanity's Last Exam

프론티어 한계: frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교

공식 리더보드 보기 점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

기존 benchmark가 쉬워진 뒤 나온 고난도 종합 시험형 benchmark입니다.

점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.