Benchmark Detail
TAU-bench
도구 사용: 상담봇, 예약/환불/주문 변경 같은 업무 자동화
공식 리더보드 보기
모델이 말만 잘하는지, 실제 시스템 액션까지 안정적으로 하는지 구분할 수 있습니다.
점수 그래프
왼쪽부터 높은 순서아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.
읽는 법
전체 벤치마크고객지원/항공/리테일 같은 시나리오에서 tool-calling agent가 목표를 달성하는지 봅니다.
모델이 말만 잘하는지, 실제 시스템 액션까지 안정적으로 하는지 구분할 수 있습니다.