Benchmark Detail

Terminal-Bench

터미널 작업: CLI 작업, repo 세팅, 데이터 처리, 시스템 작업 자동화

공식 리더보드 보기 코딩 에이전트가 실제 개발 환경에서 손발을 잘 쓰는지 보는 데 좋습니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

터미널 환경에서 명령을 실행하며 문제를 해결하는 agent 능력을 봅니다.

코딩 에이전트가 실제 개발 환경에서 손발을 잘 쓰는지 보는 데 좋습니다.