Benchmark Detail

LongBench

긴 문맥: 대형 문서 요약, 긴 회의록, 긴 코드베이스 분석

공식 리더보드 보기 context length 숫자만 보지 말고, 긴 문맥에서 필요한 정보를 실제로 찾는지 봐야 합니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

긴 문서, 긴 대화, 긴 코드 문맥을 얼마나 유지하는지 봅니다.

context length 숫자만 보지 말고, 긴 문맥에서 필요한 정보를 실제로 찾는지 봐야 합니다.