벤치마크 상세

HELM

종합 평가: 모델을 품질, 편향, 견고성, 효율 등 여러 축으로 넓게 비교

공식 리더보드 보기 특정 작업 1등을 찾기보다, 모델의 전반적인 성격을 볼 때 유용합니다.

점수 그래프

왼쪽부터 높은 순서

아직 공개 점수를 연결하지 않았습니다. 점수가 확인되는 모델만 추가할 예정입니다.

읽는 법

전체 벤치마크

Stanford CRFM의 종합 모델 평가 프레임워크입니다.

특정 작업 1등을 찾기보다, 모델의 전반적인 성격을 볼 때 유용합니다.