DW AI LAB · 한국어 AI 인텔리전스 새 근거가 확인되면 판단을 업데이트합니다.

벤치마크 상세

Humanity's Last Exam

프론티어 한계: frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교

공식 리더보드 보기 점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.

점수 그래프

왼쪽부터 높은 순서

아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

읽는 법

전체 벤치마크

기존 benchmark가 쉬워진 뒤 나온 고난도 종합 시험형 benchmark입니다.

점수가 낮아도 이상한 게 아닙니다. 매우 어려운 문제에서 모델 간 차이를 보기 위한 용도입니다.