Benchmark Detail
MATH / AIME
수학: 수학, 논리 퍼즐, 단계적 계산, formal reasoning
공식 리더보드 보기
숫자가 높아도 글쓰기나 서비스 자동화가 좋은 건 아닙니다. 수학 특화 지표로 봐야 합니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크수학 문제 풀이와 competition-style reasoning을 봅니다.
숫자가 높아도 글쓰기나 서비스 자동화가 좋은 건 아닙니다. 수학 특화 지표로 봐야 합니다.