Benchmark Detail

SWE-bench Verified

실전 코딩 이슈 해결: 버그 수정, repo 단위 코드 변경, 코딩 에이전트 평가

공식 리더보드 보기 2026년 3월 공개 리더보드 요약 기준. 실제 GitHub issue를 얼마나 해결하는지 보는 지표입니다.

점수 그래프

왼쪽부터 높은 순서

실제 GitHub issue를 고치는 능력을 평가합니다. 사람이 검수한 500개 문제 subset입니다.

모델 자체 능력뿐 아니라 agent scaffold, tool 사용, test 실행 능력이 섞입니다.