Benchmark Detail
LiveBench
최신 종합 평가: 최신 모델의 수학, 코딩, 추론, 언어 이해 흐름을 빠르게 볼 때
공식 리더보드 보기
고정된 오래된 시험보다 최신 모델 간 상대적 흐름을 보기에 좋습니다. 세부 task별 점수를 함께 봐야 합니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크오염을 줄이기 위해 새 문제를 계속 추가하는 최신 LLM 종합 리더보드입니다.
고정된 오래된 시험보다 최신 모델 간 상대적 흐름을 보기에 좋습니다. 세부 task별 점수를 함께 봐야 합니다.