벤치마크 상세

TAU-bench

도구 사용: 상담봇, 예약/환불/주문 변경 같은 업무 자동화

공식 리더보드 보기 모델이 말만 잘하는지, 실제 시스템 액션까지 안정적으로 하는지 구분할 수 있습니다.

점수 그래프

왼쪽부터 높은 순서

아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

읽는 법

전체 벤치마크

고객지원/항공/리테일 같은 시나리오에서 tool-calling agent가 목표를 달성하는지 봅니다.

모델이 말만 잘하는지, 실제 시스템 액션까지 안정적으로 하는지 구분할 수 있습니다.