Benchmark Detail
Needle-in-a-Haystack
긴 문맥 검색: 대량 문서 검색, 계약서/로그/리서치 자료 탐색
공식 리더보드 보기
긴 context를 지원한다고 해서 항상 정보를 잘 찾는 건 아닙니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크아주 긴 문서 속에 숨은 정보를 찾는 능력을 봅니다.
긴 context를 지원한다고 해서 항상 정보를 잘 찾는 건 아닙니다.