Benchmark
벤치마크
벤치마크 이름은 원문 그대로 보고, 아래 한국어 설명으로 무엇을 평가하는지 확인합니다. 카드를 클릭하면 블로그에 올라온 모델까지 포함한 점수표가 열립니다.
벤치마크 목록
클릭해서 상세 페이지 이동
LMArena
체감 품질
일반 대화, 글쓰기, 설명력, 한국어처럼 사람이 읽었을 때 좋은 답변
상세 점수 보기
Artificial Analysis Intelligence Index
종합/체감 지능
실제 서비스에 어떤 모델을 붙일지 고를 때
상세 점수 보기
LiveBench
최신 종합 평가
최신 모델의 수학, 코딩, 추론, 언어 이해 흐름을 빠르게 볼 때
상세 점수 보기
BenchLM
LLM 리더보드 허브
모델별 벤치마크 흐름을 빠르게 훑을 때
상세 점수 보기
Arena.ai
모델 아레나
사람이 체감하는 모델 답변 품질과 최신 모델 경쟁 구도를 볼 때
상세 점수 보기
Vellum LLM Leaderboard
실무형 모델 비교
제품에 어떤 모델을 붙일지 후보를 좁힐 때
상세 점수 보기
SWE-bench Verified
실전 코딩 이슈 해결
버그 수정, repo 단위 코드 변경, 코딩 에이전트 평가
상세 점수 보기
SWE-bench Multilingual
다언어 코드
TypeScript, Java, Go 등 다양한 코드베이스를 다루는 에이전트
상세 점수 보기
LiveCodeBench
코딩 추론
알고리즘 문제 풀이, 코드 생성, 디버깅형 coding reasoning
상세 점수 보기
Aider Polyglot
파일 편집
터미널 pair programming, 기존 코드 수정, PR 단위 변경
상세 점수 보기
Terminal-Bench
터미널 작업
CLI 작업, repo 세팅, 데이터 처리, 시스템 작업 자동화
상세 점수 보기
TAU-bench
도구 사용
상담봇, 예약/환불/주문 변경 같은 업무 자동화
상세 점수 보기
BFCL
함수 호출
API 호출형 agent, 플러그인, 업무 자동화
상세 점수 보기
GPQA Diamond
전문 지식/깊은 추론
과학, 수학, 전문 지식 질문, 깊은 추론
상세 점수 보기
Humanity's Last Exam
프론티어 한계
frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교
상세 점수 보기
MMLU-Pro
일반 지식
넓은 일반 지식, 시험형 문제, 기본 reasoning 비교
상세 점수 보기
MATH / AIME
수학
수학, 논리 퍼즐, 단계적 계산, formal reasoning
상세 점수 보기
MMMU
멀티모달 이해
차트, 문서 이미지, 시각 문제, 이미지 기반 질의응답
상세 점수 보기
ChartQA / DocVQA
문서·차트 이해
PDF, 보고서, 매출표, 사업 문서 분석
상세 점수 보기
LongBench
긴 문맥
대형 문서 요약, 긴 회의록, 긴 코드베이스 분석
상세 점수 보기
Needle-in-a-Haystack
긴 문맥 검색
대량 문서 검색, 계약서/로그/리서치 자료 탐색
상세 점수 보기
VibeEval
체감형 평가
일상 사용감, 글쓰기, 창의적 응답, 한국어 체감 품질을 볼 때
상세 점수 보기
HELM
종합 평가
모델을 품질, 편향, 견고성, 효율 등 여러 축으로 넓게 비교
상세 점수 보기