Benchmark Detail
SWE-bench Verified
실전 코딩 이슈 해결: 버그 수정, repo 단위 코드 변경, 코딩 에이전트 평가
공식 리더보드 보기
2026년 3월 공개 리더보드 요약 기준. 실제 GitHub issue를 얼마나 해결하는지 보는 지표입니다.
점수 그래프
왼쪽부터 높은 순서읽는 법
전체 벤치마크실제 GitHub issue를 고치는 능력을 평가합니다. 사람이 검수한 500개 문제 subset입니다.
모델 자체 능력뿐 아니라 agent scaffold, tool 사용, test 실행 능력이 섞입니다.