AI/AI 관련 재밌는 이야기

사진 넣으면 노래가 나옵니다… Gemini 음악 생성이 유독 재밌는 이유

AIThinkLab 2026. 3. 10. 14:04
SMALL

🎵 AI가 그림을 그리고 영상을 만드는 시대는 이미 익숙해졌습니다. 그런데 이제는 "사진 한 장 넣고 노래까지 만든다"는 흐름이 훨씬 현실적으로 다가오고 있습니다. 구글이 최근 Gemini 앱에 Lyria 3 기반 음악 생성 기능을 넣겠다고 발표했기 때문입니다.

 

📢 구글 공식 블로그에 따르면 2026년 2월 말부터 Gemini 앱에서 Lyria 3 베타가 순차적으로 제공됩니다. 사용자는 텍스트로 분위기, 장르, 보컬, 템포를 설명하거나 사진·영상을 업로드해 30초짜리 음악 트랙을 만들 수 있습니다. 예시 문구도 꽤 재밌습니다. "짝을 찾은 양말에 대한 코믹한 R&B 슬로우잼" 같은 프롬프트를 넣으면 몇 초 안에 곡이 나온다고 설명합니다.

 

😂 여기서부터 이미 AI 재밌는 이야기 냄새가 납니다. 예전에는 음악 생성 AI가 전문가용 데모처럼 느껴졌다면, 이제는 일상 밈·농담·추억·반려동물 사진 같은 가벼운 소재를 바로 노래로 바꿔주는 단계에 들어왔기 때문입니다. 말 그대로 "오늘 있었던 웃긴 일"을 짧은 주제곡으로 만드는 시대가 열리는 셈입니다.

 

🎤 뭐가 달라졌는지 한눈에 보기

 

구글은 Lyria 3의 개선점으로 세 가지를 강조했습니다. 첫째, 사용자가 가사를 직접 쓰지 않아도 프롬프트를 바탕으로 가사를 생성해준다는 점입니다. 둘째, 스타일·보컬·템포 등 세부 요소를 더 정교하게 조절할 수 있다는 점입니다. 셋째, 결과물이 더 현실적이고 음악적으로 복잡해졌다는 점입니다.

 

이 세 가지 변화는 생각보다 큽니다. 왜냐하면 일반 사용자가 음악을 만들 때 제일 막히는 지점이 바로 "무엇을 어떻게 적어야 할지"이기 때문입니다. 그런데 이제는 "우리 집 강아지가 산에서 뛰노는 느낌으로 신나는 곡 만들어줘" 정도만 말해도 꽤 그럴듯한 결과를 기대할 수 있습니다. 창작 도구가 전문성보다 상상력에 더 많이 반응하기 시작한 것입니다.

 

 

 

📸 사진이 노래가 되는 장면이 왜 이렇게 웃기고 흥미로운가

 

이번 발표에서 특히 눈길을 끈 부분은 텍스트만이 아니라 사진과 영상까지 입력으로 받는다는 점입니다. 예를 들어 강아지 사진, 여행 사진, 친구들과 찍은 장난스러운 셀카를 올리고 그 분위기에 맞는 노래를 만들 수 있습니다. 사진의 맥락을 읽고, 그 정서를 짧은 사운드트랙으로 번역하는 흐름입니다.

 

🖼️ 이건 단순한 기능 추가가 아니라 콘텐츠 소비 습관을 바꾸는 신호처럼 보입니다. 지금까지 사람들은 사진을 찍고, 필터를 씌우고, 짧은 캡션을 달았습니다. 앞으로는 거기에 "배경음까지 자동 생성"이 자연스럽게 붙을 수 있습니다. 일상의 작은 기록이 점점 멀티모달 미니 작품처럼 바뀌는 것입니다.

 

특히 숏폼 시대에는 이런 30초 길이가 아주 영리합니다. 길게 작곡하지 않아도 되고, 친구에게 공유하기도 쉽고, 밈처럼 소비되기도 좋습니다. 구글도 공식 글에서 이 기능의 목표가 "음악 명작을 만드는 것"이 아니라 "재미있고 개성 있는 자기표현"을 돕는 데 있다고 밝혔습니다. 이 표현이 꽤 솔직해서 좋았습니다.

 

 

 

🧪 유튜브 쇼츠까지 연결되는 구조

 

구글은 같은 글에서 YouTube의 Dream Track에도 Lyria 3가 들어간다고 설명했습니다. 즉, Gemini 앱에서 장난스럽게 음악을 만들어보는 경험과, 크리에이터가 Shorts 배경음으로 활용하는 경험이 하나의 생태계 안에서 연결되는 셈입니다.

 

이 구조는 꽤 강력합니다. 가벼운 놀이처럼 시작한 기능이 곧바로 크리에이터 도구로 확장되기 때문입니다. 일반 사용자는 친구에게 보낼 짧은 노래를 만들고, 크리에이터는 그 감각을 영상 콘텐츠에 붙입니다. 소비자용 재미와 제작자용 실용성이 한 줄로 연결되는 구조라서, 서비스 확산 속도도 빨라질 가능성이 큽니다.

 

 

 

🛡️ 그래도 확인 장치는 같이 붙였습니다

 

재미만 있는 것은 아닙니다. 구글은 Gemini 앱에서 생성된 모든 음악에 SynthID 워터마크를 심고, 오디오 검증 기능도 넓힌다고 밝혔습니다. 파일을 올려서 Google AI 생성물인지 확인하는 흐름까지 함께 제공하겠다는 뜻입니다.

 

또한 특정 아티스트를 그대로 흉내 내는 용도가 아니라 "넓은 스타일적 영감" 수준으로 처리하도록 설계했고, 기존 콘텐츠와 충돌하지 않도록 필터도 두고 있다고 설명했습니다. 아직 완벽할 수는 없겠지만, 최소한 "재밌으니까 일단 열자"가 아니라 "열되 추적 가능하게 만들자"는 방향은 분명해 보입니다.

 

 

 

😄 이 소식이 유독 재밌는 이유

 

AI 뉴스는 종종 너무 거대하게만 들립니다. 산업 판도, 투자 경쟁, 모델 성능 같은 이야기들 말입니다. 그런데 이번 소식은 훨씬 생활 밀착형입니다. 내 사진이 노래가 되고, 내 농담이 후렴구가 되고, 내 추억이 30초짜리 사운드트랙으로 바뀝니다. 기술이 거창한 담론에서 일상의 장난으로 내려오는 순간이라서 더 인상적입니다.

 

📌 결국 중요한 질문은 이것입니다. 사람들이 AI를 언제 가장 자주 쓰게 될까요? 꼭 업무 생산성이 높아질 때만은 아닙니다. 친구에게 웃긴 걸 보내고 싶을 때, 분위기를 살리고 싶을 때, "이거 한번 해보자" 싶은 가벼운 순간에도 서비스는 폭발적으로 퍼집니다. 그런 의미에서 음악 생성은 AI의 다음 대중화 버튼이 될 가능성이 있습니다.

 

저는 특히 한국어 지원이 포함된 점도 반갑게 봤습니다. 구글은 공식 발표에서 한국어를 포함한 여러 언어 지원 계획을 적었습니다. 국내 사용자 입장에서는 단순히 해외 데모를 구경하는 수준이 아니라, 실제로 내 밈·내 사진·내 농담으로 바로 시험해볼 수 있다는 뜻이기 때문입니다.

 

🎧 한 줄로 요약하면 이렇습니다. Gemini의 Lyria 3는 AI 음악 생성 기능을 "기술 시연"에서 "일상적인 놀이" 단계로 끌어내리고 있습니다. 텍스트는 물론 사진과 영상까지 받아 30초짜리 음악을 만들고, 거기에 검증 장치와 공유 동선까지 붙였습니다. 앞으로 AI가 가장 자주 쓰이는 순간은 어쩌면 업무보다 "재밌어서 한번 만들어본 노래"일지도 모르겠습니다.

 

 

 

🔗 출처

 

LIST