Decoupled DiLoCo, 구글 딥마인드가 공개한 분산 AI 학습 아키텍처 정리

Google DeepMind Decoupled DiLoCo가 여러 데이터센터와 컴퓨트 섬을 느슨하게 묶어 LLM 사전학습의 통신 병목과 장애 대응 문제를 어떻게 다루는지 정리했다.

한눈에 보기

Google DeepMind가 2026년 4월 23일 Decoupled DiLoCo를 공개했다. 한 줄로 줄이면, LLM 사전학습을 하나의 거대한 동기화 덩어리로 돌리는 대신 여러 데이터센터와 컴퓨트 섬으로 나눠서 비동기적으로 이어가는 학습 아키텍처다.

기존 대규모 학습은 많은 칩이 같은 박자로 움직여야 한다. 그래서 일부 장비가 느려지거나 고장 나면 전체 학습이 기다리는 일이 생긴다. Decoupled DiLoCo는 이 lock-step 구조를 느슨하게 풀고, 여러 learner unit이 독립적으로 계산한 뒤 central synchronizer가 minimum quorum, adaptive grace window, dynamic token-weighted merging 같은 방식으로 업데이트를 합치는 구조를 제안한다.

DeepMind가 공개한 숫자도 꽤 선명하다. 8개 데이터센터 기준 필요한 bandwidth가 198 Gbps에서 0.84 Gbps로 줄었고, 120만 chip 규모의 고장률 높은 시뮬레이션에서는 goodput이 data-parallel 27% 대비 88%로 나왔다. Gemma 4 기반 ML benchmark는 64.1%로 baseline 64.4%와 거의 같은 수준이었다.

이번 발표 뭐가 나왔나

Google DeepMind의 공식 글 제목은 "Decoupled DiLoCo: A new frontier for resilient, distributed AI training"이다. 공개일은 2026년 4월 23일이고, Research 카테고리로 올라왔다.

핵심은 large training run을 decoupled islands of compute, 즉 여러 learner unit으로 나누는 것이다. 각 섬은 독립적으로 학습을 진행하고, 전체 시스템은 비동기 데이터 흐름으로 필요한 업데이트를 주고받는다. DeepMind는 이 방식이 Pathways와 DiLoCo 위에 만들어졌다고 설명한다. Pathways는 여러 작업과 하드웨어를 더 유연하게 다루기 위한 Google의 ML 시스템 방향이고, DiLoCo는 데이터센터 간 통신을 줄이는 분산 학습 아이디어다. 이번 발표는 그 배경 위에서 장애 대응과 비동기 조정 쪽을 더 밀어붙인 버전으로 보면 된다.

공식 기술 보고서의 문제의식은 단순하다. 지금의 LLM pre-training은 tight coupling, hardware failures, synchronization overhead 때문에 전체 computation이 stall될 수 있다. Decoupled DiLoCo는 이 병목을 줄이기 위해 compute를 여러 independent learner로 나누고, 중앙 synchronizer가 최소 정족수와 유예 시간, token 수 기반 병합을 써서 전체 학습을 계속 굴린다.

핵심 변화 3가지

첫째, 학습 단위를 한 덩어리에서 여러 섬으로 나눈다.

기존 data-parallel 학습은 전체 장비가 같은 step에서 자주 맞춰야 한다. Decoupled DiLoCo는 여러 learner unit이 독립적으로 학습하고, 일정 조건을 만족하는 업데이트만 모아 global update를 만든다. 느린 learner나 잠깐 빠진 learner 때문에 전체가 멈추는 상황을 줄이는 구조다.

둘째, 네트워크 요구량을 크게 낮춘다.

DeepMind가 공개한 비교에서는 8개 데이터센터 기준 required bandwidth가 198 Gbps에서 0.84 Gbps로 내려갔다. 데이터센터 사이에 전용 초고속 네트워크를 새로 깔아야만 가능한 방식이 아니라, 상대적으로 낮은 WAN bandwidth에서도 실험이 가능했다는 점이 이 발표의 포인트다.

셋째, 장애를 정상 시나리오처럼 다룬다.

DeepMind는 chaos engineering 방식으로 hardware failure를 인위적으로 넣었다고 설명한다. learner unit이 사라져도 학습을 이어가고, 복귀하면 다시 재통합하는 식이다. 기술 보고서 초록에는 failure-prone 환경에서 millions of chips를 시뮬레이션했을 때 global downtime 없이 competitive performance를 유지했다는 설명도 나온다.

본문 이미지

Decoupled DiLoCo 구조 설명 이미지

실제로 뭐가 달라지나

일반 사용자 관점

당장 ChatGPT나 Gemini 같은 서비스를 쓰는 화면이 바뀌는 발표는 아니다. 다만 모델을 만드는 쪽의 비용 구조와 안정성이 바뀌면, 장기적으로는 더 자주 업데이트되는 모델, 더 다양한 지역에서 학습된 모델, 더 효율적으로 훈련된 모델이 나올 수 있다.

사용자 입장에서는 "AI가 더 똑똑해졌다"보다 "AI를 만드는 공장이 덜 멈추게 됐다"에 가까운 뉴스다.

개발자 관점

개발자에게는 대규모 학습 인프라의 설계 방향을 보여주는 발표다. 특히 multi-datacenter, heterogeneous hardware, asynchronous training, fault tolerance 같은 키워드를 다루는 팀이라면 읽어볼 만하다.

기술 보고서에서 언급한 central synchronizer, minimum quorum, adaptive grace window, dynamic token-weighted merging은 분산 시스템과 ML optimizer가 만나는 지점이다. 일반적인 API 개발자가 바로 구현할 기술은 아니지만, 대규모 모델 학습 프레임워크가 앞으로 어떤 추상화를 제공할지 예상하는 데 도움이 된다.

창업자 관점

AI 인프라 스타트업 입장에서는 "클러스터를 얼마나 크게 묶을 수 있느냐"만큼 "흩어진 compute를 얼마나 쓸 수 있게 만드느냐"가 사업 기회가 될 수 있다. DeepMind는 Decoupled DiLoCo가 stranded resources, 즉 여기저기 남아 있는 compute를 유용한 학습 capacity로 바꿀 수 있다고 설명했다.

또 TPU v6e와 TPU v5p처럼 서로 다른 hardware generation을 한 training run에 섞을 가능성도 언급했다. 이게 안정적으로 된다면, 최신 장비만 모은 거대한 클러스터가 아니어도 학습 자원을 더 오래 쓰는 설계가 가능해진다.

좋은 점

가장 좋은 점은 발표가 인프라의 현실적인 문제를 다룬다는 것이다. 대규모 학습에서는 장비 고장이 예외가 아니라 반복되는 사건이 된다. Decoupled DiLoCo는 이 문제를 checkpoint 복구만으로 버티는 대신, 학습 구조 자체에서 흡수하려고 한다.

수치도 방향이 명확하다. 8개 데이터센터에서 bandwidth 요구량 198 Gbps가 0.84 Gbps로 줄었고, 120만 chip 시뮬레이션에서 goodput 88%를 기록했다. data-parallel 방식의 27%와 비교하면 장애가 많은 환경에서 차이가 크게 난다.

실제 실험도 있다. DeepMind는 12B parameter model을 미국 4개 지역에서 2-5 Gbps WAN으로 훈련했고, conventional synchronization 방식보다 20배 이상 빠른 결과를 얻었다고 밝혔다.

아쉬운 점

아직은 Google 내부 인프라, Pathways, TPU 환경에 강하게 기대는 발표다. 논문과 블로그에 숫자가 잘 정리돼 있지만, 외부 팀이 바로 같은 조건으로 재현하기는 쉽지 않아 보인다.

또 ML benchmark 64.1%가 baseline 64.4%와 거의 같다는 점은 긍정적이지만, 모든 모델 크기와 모든 데이터 조합에서 항상 같은 결론이 나온다고 단정하기는 이르다. 기술 보고서도 dense와 mixture-of-expert 구조, text와 vision task에서 경쟁력 있는 결과를 보였다고 말하지만, 실제 프로덕션 학습에서는 데이터, optimizer, 네트워크 품질, 장애 패턴에 따라 변수가 많다.

그리고 central synchronizer가 핵심 조정 지점이 되는 만큼, 이 계층의 구현 복잡도와 운영 난이도도 만만치 않을 것이다.

내 생각

이번 발표는 "더 큰 모델"보다 "더 버티는 학습 시스템"에 가까운 뉴스라서 흥미롭다. AI 모델 경쟁이 계속되면 결국 학습 규모는 더 커지고, 칩 수는 더 많아지고, 데이터센터는 한 지역에만 묶어두기 어려워진다. 그때 모든 장비가 완벽하게 같은 속도로 움직이길 기대하는 방식은 점점 비싸질 수밖에 없다.

Decoupled DiLoCo의 방향은 조금 더 분산 시스템스럽다. 일부가 늦고, 일부가 고장 나고, 일부는 다른 세대의 하드웨어여도 전체 학습은 계속 진행된다. 웹 서비스 인프라에서는 익숙한 사고방식인데, LLM 사전학습에서도 그 감각이 점점 강해지는 느낌이다.

물론 이게 곧바로 모든 AI 회사의 표준이 된다는 뜻은 아니다. 그래도 "데이터센터 하나를 초대형으로 키우는 경쟁" 옆에 "여러 compute island를 느슨하게 묶는 경쟁"이 생길 가능성은 꽤 현실적으로 보인다.

요약 카드 이미지

Decoupled DiLoCo 요약 카드

결론

Decoupled DiLoCo는 LLM 사전학습의 병목을 모델 알고리즘만이 아니라 시스템 구조에서 풀려는 시도다. Google DeepMind는 Pathways와 DiLoCo를 바탕으로 여러 learner unit, asynchronous data flow, central synchronizer를 묶어 장애에 강한 학습 구조를 만들었다.

가장 기억할 숫자는 세 가지다. 8개 데이터센터 bandwidth 요구량 198 Gbps에서 0.84 Gbps, 고장률 높은 120만 chip 시뮬레이션에서 goodput 88% 대 27%, Gemma 4 ML benchmark 64.1% 대 baseline 64.4%. 성능을 거의 유지하면서 네트워크와 장애 대응을 크게 개선했다는 주장이다.

앞으로 AI 인프라 경쟁은 GPU나 TPU를 얼마나 많이 사느냐만의 문제가 아니라, 떨어져 있는 compute를 얼마나 덜 낭비하고 오래 굴리느냐의 싸움이 될 가능성이 크다.

한 줄 평

Decoupled DiLoCo는 LLM 학습을 하나의 거대한 줄맞춤에서 여러 컴퓨트 섬의 느슨한 협업으로 바꾸려는 Google DeepMind의 분산 학습 실험이다.

참고 출처

Google DeepMind, Decoupled DiLoCo: A new frontier for resilient, distributed AI training
Google DeepMind Technical Report, Decoupled DiLoCo for Resilient Distributed Pre-training