Benchmark Detail

MATH / AIME

수학: 수학, 논리 퍼즐, 단계적 계산, formal reasoning

공식 리더보드 보기 숫자가 높아도 글쓰기나 서비스 자동화가 좋은 건 아닙니다. 수학 특화 지표로 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

수학 문제 풀이와 competition-style reasoning을 봅니다.

숫자가 높아도 글쓰기나 서비스 자동화가 좋은 건 아닙니다. 수학 특화 지표로 봐야 합니다.