쉬운세상

레시피 A — Google Vids + Lyria + Gemini TTS

22b-labs 2026. 4. 8. 09:28

짧은 세로 쇼츠(9:16)를 “이미지→영상·BGM·한국어 보이스오버·캡션”까지 한 번에 만드는 최신 워크플로우를 소개할게요.


9:16 쇼츠 제작 레시피 (웹 UI 중심, 배치 자동화도 확장 가능)

도구 개요

  • Google Vids: 사진/프롬프트로 바로 영상 생성(Veo 3.1 내장), 개인 계정도 무상 생성 할당 제공. 세로 9:16 지원. (blog.google)
  • Veo 3.1: 고품질 이미지→영상, 9:16·4K 등 지원(세부 제약은 모델/플랫폼별 상이). (Google Cloud Documentation)
  • Lyria 3: 프롬프트로 30초~3분 음악 생성(앱/Vertex/Gemini API 제공). (Google AI for Developers)
  • Gemini TTS: 한국어(ko‑KR) 보이스오버 지원. (Google Cloud Documentation)
  • CapCut Web: AI 캡션과 한글 폰트 스타일링. (CapCut)

A. 웹 UI로 “한 편 완성” 경로

  1. Google Vids → 새 프로젝트
    • 이미지 업로드(9:16 패널)장면(Scenes) 에서 Veo 3.1 ‘Create from images’ 선택 → 움직임 방향/강도 간단 프롬프트. (Vids는 9:16 세로/24fps 지원) (Google Help)
  2. 보이스오버 삽입
  3. 사운드트랙 추가
  4. 내보내기(Export) → 파일 다운로드. (Vids 무상 생성 한도 및 해상도는 정책에 따름) (Google Help)
  5. CapCut Web 열기AI Captions 실행 → 한글 폰트(Noto/Nanum 등) 적용 → 최종 Export. (CapCut)

B. 배치/자동화를 위한 서버 경로(선택)

  • Vertex AI Media Studio/Generative API:
    • Veo 이미지→영상 작업을 콘솔/코드로 일괄 실행(길이·해상도 등 파라미터 제어). (Google Cloud Documentation)
    • Lyria 3/Gemini TTS는 Gemini/Vertex API로 호출해 BGM·내레이션을 프로그램matically 생성. (Google AI for Developers)

C. 예시 입력 스펙(쇼츠 30초, 6장면)

  • 패널/길이: 6 패널, 각 4–6초(총 30초).
  • 이미지 규격: 1080×1920(9:16).
  • TTS 스크립트: 한국어 2,000자 이내(장면 전개에 맞춰 문장 나눔).
  • BGM: Lyria 3로 30초 루프 느낌의 트랙 생성. (Google AI for Developers)
  • 내보내기: Vids에서 mp4로 출력 → CapCut에서 자막·폰트 마감.

D. 프롬프트 샘플

  • Veo(장면용): “상하 스크롤 느낌의 천천한 패럴랙스, 사진 속 인물은 고정, 배경만 살짝 이동, 부드러운 카메라 인/아웃” (Google Cloud Documentation)
  • Lyria 3(BGM): “lo‑fi hip‑hop, 따뜻하고 경쾌, 90–95 BPM, 30초, 드럼 소프트, 신스 패드 옅게, 영상 전환에 맞춰 4마디마다 라이트 필” (Google DeepMind)
  • Gemini TTS(ko‑KR): “차분한 여성 중저음, 0.95배 속도, 미세한 미소 톤, 과한 억양 없음” (Google Cloud Documentation)

E. 체크리스트

  • 9:16 비율·24fps·길이(각 장면 4–6초) 확인. (Google Help)
  • 이미지 품질(세로 1080p 이상), 텍스트 안전·저작권 준수(음악/보이스 워터마크 정책 유의). (The Verge)
  • 자막 가독성: Noto/Nanum 계열, 자막 박스 불투명 60–80%, 라인당 16–28자. (Google Fonts)

F. 언제 어떤 경로를 쓸까?

  • 단건·빠른 제작: 전부 Google Vids + CapCut Web(가장 간단). (blog.google)
  • 여러 편 대량: Vertex AI로 Veo/Lyria/TTS를 배치 호출 → 산출물 묶어 CapCut에서 일괄 캡션. (Google Cloud Documentation)