Microsoft, 음성 시뮬레이션 기술 VALL-E 공개

마이크로소프트사의 연구팀은 음성 샘플을 3초만 듣고도 음성을 시뮬레이션할 수 있는 텍스트 음성 변환 인공지능 도구를 공개했다. 기존의 음성 모델은 학습에 오랜 시간이 걸렸지만 이번에 공개한 음성 시뮬레이션 기술인 VALL-E는 짧은 오디오 샘플을 통해 다른 어떤 AI 모델도 자연스럽게 들릴 수 있게 구현하며 화자의 감정과 어조까지 구현할 수 있다.

마이크로 소프트가 공개한 기술구조

이 기술은 ‘신경 코텍 언어 모델’이라고 부르며 메타의 엔코덱 기술을 사용한다. 사람의 목소리를 엔코덱을 통해 개별 토큰으로 분석한 뒤 AI가 다른 단어의 소리를 낼 때 목소리가 어떻게 들릴지 예측한다. 기존의 파형 조작 방식 대신 텍스트 및 음향 프롬프트에서 오디오 코텍 코드를 생성하는 것이다.

현재 마이크로소프트사는 아직 대중에게 기술을 공개하지는 않았다. 하지만 습득에 정말로 3초밖에 걸리지 않고, 그 결과물이 발표와 비슷하다면 활용할 수 있는 분야는 실로 다양하다.

이런 AI 기술이 개선되면서 긍정적인 의견만 있는 것은 아니다. 오디오 딥페이크에 대한 우려 역시 공존한다. 단 몇 초 만에 누군가의 목소리를 완벽하게 흉내 낼 수 있는 툴이 있다면, 잘못된 사람들의 손에서 악용되기도 쉽다. 마이크로소프트 역시 이 기술의 잠재적인 오용 가능성을 잘 알고 있다.

Chat GPT의 경우

지난해 11월 말 공개된 ‘오픈 AI’ 사의 자연어처리(NLP) 기술 ‘챗(Chat) GPT’가 공개되자마자 전 세계적으로 많은 사람의 주목을 받았다. 방대한 자료를 참고해 어마어마한 양의 텍스트 데이터를 학습한 광범위한 전문성과 자연스러운 답을 내놓는 정돈된 커뮤니케이션 능력으로 인해 5일 만에 사용자 수 100만 명을 돌파했다.

게다가 학습이 계속해서 진행되고 있다는 점도 강점으로 꼽히고 있다. 이 기술이 마이크로소프트의 기술에도 적용된다면 가깝게는 더는 콜센터에서 사람을 고용할 이유가 사라지며, 목소리를 활용한 다양한 미디어에서도 도입될 수 있다.

마이크로소프트는 화자 정체성을 유지하는 음성을 합성할 수 있기 때문에, 음성 식별을 위장하거나 특정 화자를 사칭하는 등 모델을 오용할 때 잠재적 위험을 수반할 수 있다고 밝혔다.

Microsoft 공식 인스타그램 계정


이미지 출처 | Microsoft

RECOMMENDED POST