Benchmark Detail
LongBench
긴 문맥: 대형 문서 요약, 긴 회의록, 긴 코드베이스 분석
공식 리더보드 보기
context length 숫자만 보지 말고, 긴 문맥에서 필요한 정보를 실제로 찾는지 봐야 합니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크긴 문서, 긴 대화, 긴 코드 문맥을 얼마나 유지하는지 봅니다.
context length 숫자만 보지 말고, 긴 문맥에서 필요한 정보를 실제로 찾는지 봐야 합니다.