인공지능, 이제는 합주 영상 속 악기 소리까지 구분해낸다.

아마추어 밴드에 속해있는 사람이라면 공감할 법한 난감한 상황이 있다. 새로운 곡을 합주하기로 한 후, 자신의 파트를 연습해야 하는데 아무리 인터넷을 뒤져봐도 곡의 악보나 커버 영상이 없는 경우다. 음원만 듣고 자신의 파트를 단번에 구분해낼 수 있는 능력자라면 문제가 없겠지만, 아직 그 정도로 숙달되지 않았거나 곡의 악기 편성이 크다면 문제는 심각해진다(심지어 다른 멤버들에게는 실력이 들통날까봐 말할 수도 없다).

이 같은 아마추어 음악인의 어려움을 간파한 것일까, 지난 5일 유튜브의 MITCSAIL(MIT 인공지능 연구소, MIT’s Computer Science and Artificial Intelligence Laboratory) 계정은 놀라운 영상을 공개했다. 항 자오(Hang Zhao)와 그의 팀원들이 개발한 인공지능 프로그램 픽셀플레이어(PixelPlayer)의 영상이 바로 그것. 픽셀플레이어를 이용해 합주 영상에 등장하는 각 악기의 소리를 구별하여 추출하는 모습을 보여주는데, 동시에 같은 멜로디를 연주하는 트럼펫과 투바━심지어 둘 다 금관 악기다━의 소리까지 구분해내는 것으로 미루어보아 프로그램의 기술이 상당히 정교하다.

연구소의 발표에 따르면 픽셀플레이어는 딥러닝 기술을 적용한 프로그램으로, 약 60시간 분량의 악기 연주 영상을 학습해 현재 20가지 정도의 악기들을 구분해낼 수 있다고. 놀라운 점은 이 프로그램이 청각이 아닌 시각적 요소를 이용해 소리를 구분해 낸다는 것. 픽셀플레이어는 영상 속에서 소리를 발생시키는 이미지 구역을 파악한 후 어떤 픽셀들이 특정 음파를 만들어내는지 판단한다. 그러므로 이용자는 별다른 프로그램 조작 없이 영상 속에 어떤 악기들이 등장하고, 각 악기가 어떤 소리를 내는지 알 수 있다.

픽셀플레이어의 또 하나의 기능은 바로 각 악기의 볼륨을 따로 조절할 수 있다는 것. 합주 영상 속 자신이 좋아하는 악기의 소리를 더 크게 들을 수 있는 것이다. 항 자오의 팀은 향후 이 기술이 오래된 콘서트 영상 관련 작업에 사용될 수 있다고 예상했다.

현재 연구진은 프로그램이 아직 개발 단계이며, 앞으로 추출되는 악기 소리의 질을 높이고 더 다양한 악기를 학습시킬 계획이라고 밝혔다. 과연 픽셀플레이어는 가까운 미래에 아마추어 음악인들의 구원이 될 수 있을까. 픽셀플레이어의 공식 웹페이지에서 프로그램의 데모를 체험해 볼 수 있으니, 관심을 두고 그들의 연구를 주목해보자.

PixelPlayer 공식 페이지
MIT News의 PixelPlayer 관련 기사

RECOMMENDED POST