AutoScientist 공개, 핵심은 모델 훈련을 스스로 고치는 AI다

Adaption이 공개한 AutoScientist를 모델 평가, 약점 진단, 학습 데이터 생성, post-training 자동화 관점에서 정리합니다.

Adaption이 모델 훈련과 alignment 반복 실험을 자동화하는 AutoScientist를 공개했다. 핵심은 더 큰 모델 발표가 아니라, 목적에 맞게 모델을 고치는 과정을 제품화하려는 흐름이다.

한눈에 보기

발표 내용: Adaption이 모델 훈련과 alignment의 research loop를 자동화하는 AutoScientist를 공개했다.
핵심 변화: 데이터와 training recipe를 함께 조정하면서 원하는 model behavior에 가까워지도록 반복한다.
한 줄 결론: 모델 크기 경쟁보다 "모델을 목적에 맞게 고치는 과정"을 자동화하려는 흐름이 더 선명해졌다.

이번 발표, 뭐가 나왔나

Adaption이 2026년 5월 13일 공식 블로그에서 AutoScientist: Automating the Science of Model Training을 공개했다. 핵심은 이거다. 사람이 데이터와 훈련 설정을 바꿔가며 반복하던 모델 개선 루프를, 시스템이 평가하고 다시 조정하는 구조로 가져가겠다는 것이다.

TechCrunch도 같은 날 이 소식을 보도했다. 기사에 따르면 AutoScientist는 기존 fine-tuning에 자동화 접근을 붙여 모델이 특정 capability를 더 빠르게 배우도록 돕는 제품이다. Adaption co-founder 겸 CEO Sara Hooker는 data와 model을 함께 최적화한다는 점을 강조했다.

핵심 변화 3가지

1. Adaption AutoScientist, training loop를 자동화한다

공식 발표에서 Adaption은 AutoScientist를 모델 훈련과 alignment 뒤의 "full research loop"를 자동화하고 self-improve하는 시스템이라고 설명했다. 기존에는 연구자나 ML 엔지니어가 데이터, 훈련 레시피, 평가 결과를 보고 다시 실험을 돌리는 방식이었다.

AutoScientist는 이 반복 과정을 제품화하려는 시도다. 단순히 데이터셋만 정리하는 도구라기보다, 모델이 원하는 행동에 가까워지도록 실험 루프를 계속 돌리는 쪽에 가깝다.

2. Adaptive Data에서 Adaptive System으로 넘어간다

Adaption은 이전 제품인 Adaptive Data가 입력 데이터를 shape했다면, AutoScientist는 모델을 shape한다고 표현했다. 데이터만 고치는 것도 아니고, 훈련 설정만 바꾸는 것도 아니다. data와 training recipe를 함께 co-optimize한다는 점이 이번 발표의 중심이다.

실사용 관점에서는 이 부분이 먼저 보인다. 모델이 특정 업무에서 애매하게 틀릴 때, 문제 원인이 데이터인지, 학습 설정인지, 평가 기준인지 한 번에 분리하기 어렵다. AutoScientist는 그 얽힌 부분을 반복적으로 조정하겠다는 접근이다.

3. 수치는 강하지만, 독립 검증은 아직 필요하다

Adaption은 공식 발표에서 AutoScientist가 in-house AI research staff가 구성한 human-configured training보다 평균 35% 개선됐다고 주장했다. 또 AI researcher recommendation 대신 AutoScientist를 사용했을 때 win rate가 48%에서 64%로 올랐다고 밝혔다.

다만 이 수치는 Adaption 내부의 domain-specialized evaluation 기반이다. 데이터셋 크기 5k-100k, Together AI fine-tuning 모델 아키텍처, 8개 vertical에서 테스트했다는 설명은 있지만, 외부 독립 검증은 아직 확인 필요하다.

그래서 실제로 뭐가 달라지나

일반 사용자 기준

일반 사용자가 바로 체감할 기능은 아직 제한적일 가능성이 크다. AutoScientist는 ChatGPT처럼 바로 쓰는 소비자 앱보다는 모델을 특정 목적에 맞게 고치려는 팀을 위한 도구에 가깝다.

다만 장기적으로는 앱 안의 AI가 더 빠르게 업무 맥락에 맞춰지는 쪽으로 이어질 수 있다. 예를 들어 고객 상담, 문서 처리, 금융 리포트 분석처럼 "정답 스타일"이 중요한 영역에서는 모델 튜닝 시간이 줄어드는 효과를 기대할 수 있다.

개발자 기준

개발자와 ML 팀 입장에서는 fine-tuning 운영 방식이 달라질 수 있다. 데이터셋을 만들고, weak spot을 찾고, training recipe를 바꾸고, 다시 benchmark를 보는 루프가 자동화 대상이 된다.

가격과 사용량 제한은 아직 세부 확인이 필요하다. 공식 발표에는 출시 후 30일간 무료 사용 가능하다는 내용이 있지만, 무료 범위와 조건은 별도 확인이 필요하다.

창업자/업무 활용 기준

창업자나 AI 제품팀 기준에서는 "모델을 새로 만드는 것"보다 "우리 서비스에 맞는 행동을 하게 만드는 것"이 더 현실적인 병목일 때가 많다. AutoScientist가 실제로 이 반복 실험을 줄여준다면 작은 팀도 모델 개선 사이클을 빠르게 돌릴 수 있다.

반대로 데이터 품질이 낮거나 평가 기준이 흔들리는 팀에서는 효과가 제한될 수 있다. 자동화는 평가 기준이 어느 정도 명확할 때 힘을 받는다.

좋은 점

데이터와 모델을 따로 보지 않고 함께 최적화한다는 접근이 현실적이다.
fine-tuning과 alignment 반복 실험을 줄일 가능성이 있다.
공식 발표 기준으로 8개 vertical과 다양한 dataset size에서 일관된 개선을 주장했다.

아쉬운 점

성능 수치가 내부 평가 기반이라 외부 독립 검증은 아직 확인 필요하다.
무료 사용의 정확한 범위, 사용량 제한, 대상 조건은 아직 확인 필요하다.
어떤 업무에서는 효과가 큰지, 어떤 업무에서는 제한적인지 더 많은 사례가 필요하다.

내 생각

이번 발표는 "더 큰 모델" 뉴스와 결이 조금 다르다. 핵심은 모델 자체를 키우는 게 아니라, 이미 있는 모델을 원하는 업무에 더 빨리 맞추는 과정이다.

AI 제품을 만들 때 진짜 어려운 지점은 종종 모델 호출 그 자체가 아니다. 모델이 우리 서비스의 규칙, 톤, 판단 기준을 안정적으로 따르게 만드는 과정이다. AutoScientist는 바로 그 지점을 겨냥한다.

다만 지금은 Adaption의 공식 발표와 TechCrunch 보도에 근거한 초기 평가다. 수치가 인상적인 건 맞지만, 내부 평가라는 단서가 붙는다. 실제 기업 데이터와 복잡한 업무 조건에서도 같은 흐름이 나오는지는 더 봐야 한다.

결론

AutoScientist는 모델 훈련과 alignment의 반복 실험을 자동화하려는 Adaption의 새 제품이다. data와 training recipe를 함께 조정해 원하는 model behavior에 가까워지도록 만든다는 점에서, fine-tuning 도구 이상의 방향성을 갖고 있다.

다만 성능 주장과 실제 범용성은 아직 검증 단계다. 지금은 기대할 만한 발표지만, 현장에서 정말 시간을 얼마나 줄여주는지가 다음 체크포인트다.

한 줄 평: "모델을 쓰는 시대에서, 모델을 계속 고치는 시대가 더 가까워졌다."

이런 방식의 모델 훈련 자동화가 실제 제품팀에 얼마나 도움이 될지, 여러분은 어떻게 보시나요?