Benchmark Detail

Needle-in-a-Haystack

긴 문맥 검색: 대량 문서 검색, 계약서/로그/리서치 자료 탐색

공식 리더보드 보기 긴 context를 지원한다고 해서 항상 정보를 잘 찾는 건 아닙니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

아주 긴 문서 속에 숨은 정보를 찾는 능력을 봅니다.

긴 context를 지원한다고 해서 항상 정보를 잘 찾는 건 아닙니다.