한눈에 보기
- 발표 내용: Google이 Gemini Embedding 2를 Gemini API와 Vertex AI에서 일반 제공한다고 밝혔다.
- 핵심 변화: 텍스트, 이미지, 비디오, 오디오를 같은 embedding space에 매핑하는 멀티모달 embedding을 production 환경으로 옮겼다.
- 한 줄 결론: 화려한 생성 모델은 아니지만, 실제 AI 제품의 검색 품질과 추천 품질을 좌우하는 기반 업데이트다.
이번 발표, 뭐가 나왔나
Google이 Gemini Embedding 2의 일반 제공, 즉 GA를 발표했다. preview 단계에서는 멀티모달 프로토타입을 만들 수 있는 가능성을 보여줬다면, 이번에는 Gemini API와 Vertex AI를 통해 production 환경에서 쓸 수 있는 안정성과 최적화를 내세웠다.
핵심은 간단하다. 텍스트, 이미지, 비디오, 오디오처럼 서로 다른 데이터를 같은 의미 공간으로 보내고, 그 위에서 검색, RAG, 추천, 분류, 클러스터링을 만들 수 있게 하는 것이다. 겉으로는 덜 화려하지만, AI 제품을 실제로 굴려본 팀일수록 이런 업데이트가 꽤 크게 느껴질 수 있다.
핵심 변화 3가지
1. Gemini Embedding 2는 멀티모달 데이터를 한 공간으로 묶는다
Embedding은 데이터를 숫자 벡터로 바꾸는 기술이다. 쉽게 말하면 문장, 이미지, 영상, 오디오를 AI가 비교할 수 있는 좌표로 바꿔놓는 작업에 가깝다.
Gemini Embedding 2의 포인트는 이 좌표 공간이 멀티모달이라는 점이다. Google은 텍스트, 이미지, 비디오, 오디오 데이터를 같은 embedding space에 매핑한다고 설명한다. 이 구조가 있으면 "문장으로 이미지를 찾기", "이미지와 비슷한 영상 찾기", "제품 설명과 시각 자료를 함께 검색하기" 같은 기능을 더 자연스럽게 설계할 수 있다.
2. Gemini API와 Vertex AI에서 production 사용을 겨냥한다
이번 발표에서 중요한 단어는 GA다. 실험용 preview에서 끝나는 게 아니라, Gemini API와 Vertex AI에서 일반 제공으로 넘어갔다는 뜻이다.
Google은 preview 기간 동안 e-commerce discovery engine, video analysis tool 같은 프로토타입이 만들어졌고, 이제는 이런 멀티모달 프로젝트를 production으로 옮길 안정성과 최적화를 제공한다고 설명했다. 개발자 입장에서는 모델 자체보다 운영 환경, API 선택지, 클라우드 연동이 더 중요해지는 구간이다.
3. 차원 선택과 긴 입력 지원도 실무 포인트다
Google 발표에 따르면 Gemini Embedding 2는 128k token input을 지원하고, Matryoshka Representation Learning을 통해 3072, 1536, 768, 256 dimension 옵션을 제공한다. 100개 이상의 언어 지원도 언급됐다.
이건 저장 비용과 검색 품질 사이에서 선택지가 생긴다는 뜻이다. 차원이 높으면 더 풍부한 표현을 기대할 수 있지만, 저장 공간과 검색 비용이 늘 수 있다. 반대로 낮은 차원은 빠르고 가볍지만, 사용 사례에 따라 품질을 확인해야 한다. 결국 embedding은 모델만 고르는 문제가 아니라, 데이터와 제품 흐름에 맞춰 평가해야 하는 영역이다.

그래서 실제로 뭐가 달라지나
일반 사용자 기준
일반 사용자가 "Gemini Embedding 2를 쓴다"고 직접 느낄 일은 거의 없다. 대신 검색 결과가 더 잘 맞거나, 이미지와 텍스트를 섞어 찾는 기능이 자연스러워지거나, 추천이 더 똑똑해지는 식으로 뒤쪽에서 체감될 가능성이 크다.
예를 들어 쇼핑몰에서 "차분한 회색 러닝화"라고 검색했을 때 상품명만 보는 게 아니라 이미지, 설명, 카테고리, 리뷰 맥락까지 같이 이해하는 검색이 가능해지는 식이다.
개발자 기준
개발자에게는 꽤 현실적인 업데이트다. RAG를 만들 때 문서만 검색하는 게 아니라 이미지, 영상, 오디오까지 함께 검색하고 싶다면 embedding 품질과 인덱스 설계가 바로 병목이 된다.
Gemini Embedding 2가 Gemini API와 Vertex AI에서 제공된다는 점도 중요하다. 실험용 데모가 아니라, 기존 Google Cloud 데이터 파이프라인과 붙여서 운영하는 흐름을 만들 수 있기 때문이다. 다만 구현 코드 몇 줄보다 중요한 건 평가다. 어떤 차원을 쓸지, 어떤 검색 지표를 볼지, 잘못 검색된 결과를 어떻게 걸러낼지까지 같이 설계해야 한다.
창업자/업무 활용 기준
창업자나 제품 담당자 입장에서는 생성 AI보다 덜 화려해 보여도 오히려 더 중요한 영역일 수 있다. 사용자가 원하는 걸 못 찾으면, 아무리 좋은 생성 모델을 붙여도 제품 경험이 흔들린다.
콘텐츠 서비스, 커머스, 교육, 미디어, 내부 지식 검색을 다루는 팀이라면 embedding 모델 선택이 제품 품질에 직접 영향을 준다. 특히 이미지와 영상이 많은 서비스라면 멀티모달 embedding은 단순한 기술 옵션이 아니라 검색 경험의 기반이 될 수 있다.
좋은 점
- 텍스트, 이미지, 비디오, 오디오를 같은 의미 공간으로 묶는 멀티모달 embedding이다.
- Gemini API와 Vertex AI에서 GA로 제공되어 production 적용을 겨냥한다.
- RAG, 검색, 추천, 분류, 클러스터링 같은 실제 제품 기능과 바로 연결된다.
- 128k token input과 여러 dimension 옵션으로 사용 사례에 맞춘 설계 여지가 있다.
- 100개 이상의 언어 지원을 언급해 다국어 서비스에도 맞춰볼 수 있다.
아쉬운 점
- 생성 모델처럼 결과가 바로 눈에 보이는 업데이트는 아니라 비전문가에게는 체감이 약할 수 있다.
- embedding 품질은 데이터, 인덱스, 검색 전략, 평가 지표에 따라 크게 달라진다.
- dimension 선택은 비용과 품질의 균형 문제라 실제 데이터로 검증해야 한다.
- Google Cloud 중심으로 운영하는 팀에는 자연스럽지만, 다른 인프라를 쓰는 팀은 연동 비용을 따져봐야 한다.
내 생각
Gemini Embedding 2는 화려한 발표는 아니다. 이미지 생성이나 에이전트 발표처럼 바로 눈에 보이는 기능도 아니다. 그런데 AI 제품을 만드는 입장에서는 이런 쪽이 더 오래 남는다.
RAG가 잘 안 되는 이유도 결국 모델이 멍청해서만은 아니다. 못 찾았거나, 엉뚱한 문서를 가져왔거나, 이미지와 텍스트를 따로 놀게 만들었거나, 검색 결과를 제대로 평가하지 못한 경우가 많다. Gemini Embedding 2 같은 업데이트는 바로 그 밑단을 건드린다. 생성 모델이 답을 쓰기 전에, 필요한 재료를 제대로 찾아오는 능력부터 바꾸는 셈이다.

결론
Gemini Embedding 2의 핵심은 멀티모달 데이터를 하나의 검색 가능한 의미 공간으로 묶는 것이다. 텍스트만 검색하던 RAG에서 벗어나 이미지, 영상, 오디오까지 함께 다루려는 제품에는 꽤 중요한 기반이 될 수 있다.
다만 embedding 모델만 바꾼다고 검색 품질이 자동으로 좋아지는 건 아니다. 데이터 정리, 인덱스 설계, 평가 지표, 사람의 검토까지 같이 가야 실제 제품에서 차이가 난다.
한 줄 평: "Gemini Embedding 2는 생성 AI보다 덜 화려하지만, AI 제품의 검색 체감을 바꾸는 기반 기술에 가깝다."
여러분은 AI 제품에서 더 답답한 문제가 모델 답변 품질이라고 보시나요, 아니면 원하는 정보를 제대로 못 찾는 검색 품질이라고 보시나요?
