Benchmark

벤치마크

벤치마크 이름은 원문 그대로 보고, 아래 한국어 설명으로 무엇을 평가하는지 확인합니다. 카드를 클릭하면 블로그에 올라온 모델까지 포함한 점수표가 열립니다.

벤치마크 목록

클릭해서 상세 페이지 이동
LMArena 체감 품질 일반 대화, 글쓰기, 설명력, 한국어처럼 사람이 읽었을 때 좋은 답변 상세 점수 보기 Artificial Analysis Intelligence Index 종합/체감 지능 실제 서비스에 어떤 모델을 붙일지 고를 때 상세 점수 보기 LiveBench 최신 종합 평가 최신 모델의 수학, 코딩, 추론, 언어 이해 흐름을 빠르게 볼 때 상세 점수 보기 BenchLM LLM 리더보드 허브 모델별 벤치마크 흐름을 빠르게 훑을 때 상세 점수 보기 Arena.ai 모델 아레나 사람이 체감하는 모델 답변 품질과 최신 모델 경쟁 구도를 볼 때 상세 점수 보기 Vellum LLM Leaderboard 실무형 모델 비교 제품에 어떤 모델을 붙일지 후보를 좁힐 때 상세 점수 보기 SWE-bench Verified 실전 코딩 이슈 해결 버그 수정, repo 단위 코드 변경, 코딩 에이전트 평가 상세 점수 보기 SWE-bench Multilingual 다언어 코드 TypeScript, Java, Go 등 다양한 코드베이스를 다루는 에이전트 상세 점수 보기 LiveCodeBench 코딩 추론 알고리즘 문제 풀이, 코드 생성, 디버깅형 coding reasoning 상세 점수 보기 Aider Polyglot 파일 편집 터미널 pair programming, 기존 코드 수정, PR 단위 변경 상세 점수 보기 Terminal-Bench 터미널 작업 CLI 작업, repo 세팅, 데이터 처리, 시스템 작업 자동화 상세 점수 보기 TAU-bench 도구 사용 상담봇, 예약/환불/주문 변경 같은 업무 자동화 상세 점수 보기 BFCL 함수 호출 API 호출형 agent, 플러그인, 업무 자동화 상세 점수 보기 GPQA Diamond 전문 지식/깊은 추론 과학, 수학, 전문 지식 질문, 깊은 추론 상세 점수 보기 Humanity's Last Exam 프론티어 한계 frontier 모델의 한계, 어려운 전문 질문, 장기 reasoning 비교 상세 점수 보기 MMLU-Pro 일반 지식 넓은 일반 지식, 시험형 문제, 기본 reasoning 비교 상세 점수 보기 MATH / AIME 수학 수학, 논리 퍼즐, 단계적 계산, formal reasoning 상세 점수 보기 MMMU 멀티모달 이해 차트, 문서 이미지, 시각 문제, 이미지 기반 질의응답 상세 점수 보기 ChartQA / DocVQA 문서·차트 이해 PDF, 보고서, 매출표, 사업 문서 분석 상세 점수 보기 LongBench 긴 문맥 대형 문서 요약, 긴 회의록, 긴 코드베이스 분석 상세 점수 보기 Needle-in-a-Haystack 긴 문맥 검색 대량 문서 검색, 계약서/로그/리서치 자료 탐색 상세 점수 보기 VibeEval 체감형 평가 일상 사용감, 글쓰기, 창의적 응답, 한국어 체감 품질을 볼 때 상세 점수 보기 HELM 종합 평가 모델을 품질, 편향, 견고성, 효율 등 여러 축으로 넓게 비교 상세 점수 보기