Benchmark Detail

LiveBench

최신 종합 평가: 최신 모델의 수학, 코딩, 추론, 언어 이해 흐름을 빠르게 볼 때

공식 리더보드 보기 고정된 오래된 시험보다 최신 모델 간 상대적 흐름을 보기에 좋습니다. 세부 task별 점수를 함께 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

오염을 줄이기 위해 새 문제를 계속 추가하는 최신 LLM 종합 리더보드입니다.

고정된 오래된 시험보다 최신 모델 간 상대적 흐름을 보기에 좋습니다. 세부 task별 점수를 함께 봐야 합니다.