Benchmark Detail
SWE-bench Multilingual
다언어 코드: TypeScript, Java, Go 등 다양한 코드베이스를 다루는 에이전트
공식 리더보드 보기
한국 개발자에게는 실제 웹/앱 스택과 더 가까운 신호일 수 있습니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크Python 외 여러 언어와 framework에서 실제 issue 해결 능력을 봅니다.
한국 개발자에게는 실제 웹/앱 스택과 더 가까운 신호일 수 있습니다.