AI/AI 관련 재밌는 이야기

영상에게 말로 부탁하는 시대? Gemini Omni 데모 9개가 보여준 AI 편집의 미래

AIThinkLab 2026. 6. 1. 14:09
반응형

🎬 영상 편집에게 말로 부탁하는 시대

 

Google이 2026년 5월 29일 공개한 Gemini Omni와 Gemini 3.5 데모 9개는 “AI 영상 편집”이라는 말을 아주 직관적으로 보여줍니다. 특히 Gemini Omni는 이미지, 오디오, 영상, 텍스트를 입력으로 받아 실제 세계 지식에 기반한 영상을 만들고, 대화하듯 영상을 고칠 수 있다고 소개됐습니다. ✨

 

가장 재미있는 부분은 편집 방식입니다. 지금까지 영상 편집은 타임라인, 컷, 레이어, 마스크, 효과 이름을 알아야 하는 기술에 가까웠습니다. 그런데 Omni 데모의 메시지는 “그냥 원하는 장면을 말해 보세요”입니다. 조각상을 비눗방울로 바꿔 달라거나, 방의 조명을 낮춰 달라는 식입니다.

 

물론 실제 제작 현장에서는 여전히 세밀한 조정과 전문가의 감각이 중요합니다. 하지만 말로 영상의 분위기와 동작을 바꾸는 인터페이스가 자연스러워지면, 처음 아이디어를 실험하는 속도는 크게 달라질 수 있습니다. 🎥

 

Google은 Omni가 여러 입력을 함께 이해하고, 장면의 물리적 일관성과 캐릭터의 연속성을 유지하면서 편집을 이어갈 수 있다고 설명했습니다. 여기서 핵심은 한 번의 마법 버튼보다 “여러 차례 대화하며 다듬는다”는 점입니다.

 

예를 들어 “바이올린 연주자 영상을 만들어 줘”라고 시작한 뒤, “무대를 비 오는 밤거리로 바꿔 줘”, “카메라를 뒤쪽에서 천천히 다가가게 해 줘”, “조명은 더 따뜻하게 해 줘”라고 이어서 말할 수 있는 그림입니다. 편집 프로그램을 배우지 않아도 감독처럼 지시할 수 있는 셈입니다. 🎻

 

Gemini 3.5 Flash 데모도 흥미롭습니다. Google은 이 모델이 빠른 속도와 높은 성능의 균형을 바탕으로 긴 단계의 에이전트 작업, 코딩, 파일 정리 같은 흐름에 적합하다고 소개했습니다. 영상 생성의 화려함과 달리, 이쪽은 조용히 일을 처리하는 비서 느낌입니다.

 

예컨대 정리되지 않은 자산 파일을 기준에 맞춰 이름을 바꾸고 분류하는 작업은 사람에게는 지루하지만, 에이전트에게는 딱 맞는 문제입니다. “이 폴더를 보고 캠페인별로 정리해 줘” 같은 요청이 점점 자연스러운 업무가 될 수 있습니다. 🗂️

 

이 두 흐름을 함께 보면 재미있는 대비가 생깁니다. Gemini Omni는 상상한 장면을 만들고 바꾸는 쪽에 가깝고, Gemini 3.5 Flash는 복잡한 절차를 실행하는 쪽에 가깝습니다. 한쪽은 창작의 손, 다른 한쪽은 업무의 발처럼 느껴집니다.

 

AI 콘텐츠 제작에서 가장 큰 변화는 “초안의 비용”이 낮아진다는 점입니다. 예전에는 광고 영상 아이디어를 확인하려면 촬영, 편집, 그래픽 작업이 필요했습니다. 앞으로는 먼저 AI로 여러 버전을 만들어 보고, 그중 좋은 방향을 사람이 골라 실제 제작으로 이어갈 수 있습니다.

 

물론 우려도 있습니다. AI가 만든 영상이 더 자연스러워질수록 출처 표시, 저작권, 딥페이크, 배우와 창작자의 권리 문제가 더 중요해집니다. 재미있는 데모일수록 “어디에 어떻게 쓸 것인가”라는 사회적 약속이 같이 필요합니다. ⚖️

 

그래도 데모 자체가 던지는 상상은 꽤 큽니다. 가족 여행 영상을 “90년대 홈비디오 느낌으로 바꿔 줘”라고 말하거나, 발표 자료용 짧은 설명 영상을 대화로 만들 수 있다면 영상 제작은 훨씬 많은 사람의 일상이 됩니다.

 

저는 이 흐름을 보며 스마트폰 카메라의 변화를 떠올렸습니다. 예전에는 사진도 노출, 초점, 보정을 배워야 잘 찍을 수 있었습니다. 지금은 휴대폰이 상당 부분을 도와줍니다. 영상에서도 AI가 비슷한 역할을 하려는 것처럼 보입니다. 📱

 

중요한 것은 AI가 전문가를 없앤다는 단순한 결론이 아닙니다. 오히려 누구나 빠르게 시도할 수 있게 되면, 전문가는 더 높은 수준의 기획, 연출, 검수, 윤리 판단에서 빛날 가능성이 큽니다.

 

Gemini Omni 데모 9개가 재미있는 이유는 그래서입니다. “영상 생성 AI가 멋진 장면을 만든다”를 넘어, 우리가 컴퓨터에게 영상을 지시하는 언어 자체가 바뀌고 있음을 보여줍니다. 버튼을 찾는 시간이 줄고, 원하는 장면을 설명하는 능력이 더 중요해질 수 있습니다. 🗣️

 

앞으로 영상 편집 수업은 프로그램 메뉴를 외우는 시간보다 “좋은 프롬프트로 장면을 설계하는 법”, “AI 결과물을 비판적으로 고르는 법”을 더 많이 다루게 될지도 모릅니다.

 

결국 이번 소식의 핵심은 창작 도구가 사람의 말에 더 가까워지고 있다는 점입니다. 편집실의 복잡한 타임라인이 대화창으로 조금씩 걸어 나오고 있습니다. 이것이 완성형 미래는 아니더라도, 꽤 신나는 예고편임은 분명합니다. 🍿

 

🔗 참고 출처

 

Google The Keyword - 9 demos of Gemini Omni and Gemini 3.5 in action

 

Google I/O 2026 collection

 

반응형