벤치마크

벤치마크

벤치마크 이름은 원문 그대로 보고, 한국어 설명으로 무엇을 평가하는지 확인합니다. 카드를 클릭하면 원문 리더보드가 열립니다.

점수 요약

점수순

실전 코딩 이슈 해결SWE-bench Verified

확인 시각: 2026년 7월 28일 오후 01:20 · 지표: % resolved · 버전: Verified 500-instance subset

live-SWE-agent + Claude 4.5 Opus medium (20251101)

79.2

Sonar Foundation Agent + Claude 4.5 Opus

79.2

TRAE + Doubao-Seed-Code

78.8

live-SWE-agent + Gemini 3 Pro Preview (2025-11-18)

77.4

Atlassian Rovo Dev (2025-09-02)

76.8

공식 SWE-bench 저장소의 Verified 리더보드 상위 5개 결과입니다. 점수는 모델 단독이 아니라 표시된 agent/system 설정을 포함합니다.

최신 종합 평가LiveBench

확인 시각: 2026년 7월 28일 오후 01:20 · 지표: mean score across 23 task columns · 버전: 2026-06-25 release

gpt-5.6-sol-max

82.87

claude-fable-5-max-effort

81.39

claude-opus-5-xhigh-effort

80.69

gpt-5.5-xhigh

80.53

gpt-5.6-terra-max

80.33

공식 LiveBench 공개 CSV의 모든 23개 task 열을 동일 가중치로 산술 평균한 상위 5개입니다.

벤치마크 목록

클릭해서 원문 이동

LMArena 체감 품질 일반 대화, 글쓰기, 설명력, 한국어처럼 사람이 읽었을 때 좋은 답변 상세 점수 보기 Artificial Analysis Intelligence Index 품질·속도·가격 실제 서비스에 어떤 모델을 붙일지 고를 때 상세 점수 보기 LiveBench 최신 종합 평가 최신 모델의 수학, 코딩, 추론, 언어 이해 흐름을 빠르게 볼 때 상세 점수 보기 BenchLM LLM 리더보드 허브 모델별 벤치마크 흐름을 빠르게 훑을 때 상세 점수 보기 Arena.ai 모델 아레나 사람이 체감하는 모델 답변 품질과 최신 모델 경쟁 구도를 볼 때 상세 점수 보기 Vellum LLM Leaderboard 실무형 모델 비교 제품에 어떤 모델을 붙일지 후보를 좁힐 때 상세 점수 보기 SWE-bench Verified 실전 코딩 이슈 해결 버그 수정, repo 단위 코드 변경, 코딩 에이전트 평가 상세 점수 보기 SWE-bench Multilingual 다언어 코드 TypeScript, Java, Go 등 다양한 코드베이스를 다루는 에이전트 상세 점수 보기 LiveCodeBench 코딩 추론 알고리즘 문제 풀이, 코드 생성, 디버깅형 coding reasoning 상세 점수 보기 Aider Polyglot 파일 편집 터미널 pair programming, 기존 코드 수정, PR 단위 변경 상세 점수 보기 Terminal-Bench 터미널 작업 CLI 작업, repo 세팅, 데이터 처리, 시스템 작업 자동화 상세 점수 보기 TAU-bench 도구 사용 상담봇, 예약/환불/주문 변경 같은 업무 자동화 상세 점수 보기 BFCL 함수 호출 API 호출형 agent, 플러그인, 업무 자동화 상세 점수 보기 GPQA Diamond 전문 추론 과학, 수학, 전문 지식 질문, 깊은 추론 상세 점수 보기 Humanity's Last Exam 프론티어 한계 frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교 상세 점수 보기 MMLU-Pro 일반 지식 넓은 일반 지식, 시험형 문제, 기본 reasoning 비교 상세 점수 보기 MATH / AIME 수학 수학, 논리 퍼즐, 단계적 계산, formal reasoning 상세 점수 보기 MMMU 멀티모달 이해 차트, 문서 이미지, 시각 문제, 이미지 기반 질의응답 상세 점수 보기 ChartQA / DocVQA 문서·차트 이해 PDF, 보고서, 매출표, 사업 문서 분석 상세 점수 보기 LongBench 긴 문맥 대형 문서 요약, 긴 회의록, 긴 코드베이스 분석 상세 점수 보기 Needle-in-a-Haystack 긴 문맥 검색 대량 문서 검색, 계약서/로그/리서치 자료 탐색 상세 점수 보기 VibeEval 체감형 평가 일상 사용감, 글쓰기, 창의적 응답, 한국어 체감 품질을 볼 때 상세 점수 보기 HELM 종합 평가 모델을 품질, 편향, 견고성, 효율 등 여러 축으로 넓게 비교 상세 점수 보기