Benchmark Detail

SWE-bench Multilingual

다언어 코드: TypeScript, Java, Go 등 다양한 코드베이스를 다루는 에이전트

공식 리더보드 보기 한국 개발자에게는 실제 웹/앱 스택과 더 가까운 신호일 수 있습니다.

점수 그래프

왼쪽부터 높은 순서
아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

Python 외 여러 언어와 framework에서 실제 issue 해결 능력을 봅니다.

한국 개발자에게는 실제 웹/앱 스택과 더 가까운 신호일 수 있습니다.