상세 컨텐츠

본문 제목

AI 앵커의 등장... 인공지능 아나운서 개발기

POST

by ESTsoft 2021. 1. 29. 18:14

본문

안녕하세요, 최근 진짜처럼 보이는 '인공지능 아나운서'가 화제를 끌고 있는데요~ 오늘은 이스트소프트가 지난 <AI PLUS 2020> 컨퍼런스에서 선보였던 AI 아나운서 기술의 개발기를 소개해드리려고 합니다.

 

 

1. AI 아나운서 프로젝트 개요

먼저 이 기술은 컨퍼런스 당시 많은 참가들의 놀라움을 자아냈던 손정의 소프트뱅크 회장과 마크 주커버그 페이스북 CEO의 가상 축전 영상 제작에 사용되었던 '디지털 휴먼 인터페이스 기술'인데요~ 쉽게 말해, 인공지능이 사람의 얼굴과 목소리 등을 학습한 뒤, 입력된 텍스트를 바탕으로 실제 사람이 말하는 것 같은 영상을 구현해내는 기술입니다.

이스트소프트는 지난해부터 이 기술을 연구하고 있었는데요! 이 기술은 다양한 영역에 활용 가능하지만, 우선 이 기술의 활용처로 AI 아나운서가 적합하다고 판단하여 뉴스 전문 방송국과 협력을 통해 현재 기술 개발을 진행하고 있습니다. 이번 포스팅에서는 지난해 7월 방송국과 자회사 줌인터넷과 함께 진행했던 킥오프 미팅부터 이후 3개월 간의 개발과정에 대해 자세히 소개드리겠습니다.

먼저 킥오프 미팅을 통해 방송국은 아나운서 영상 데이터를, 줌인터넷은 그간 방송 콘텐츠 서비스 노하우를 제공하고, 이스트소프트는 디지털 휴먼 기술을 활용해 AI 모듈을 제작하는 역할을 맡아, 3개월 안에 프로타입을 완성해보자고 의견을 모았습니다. 해당 프로젝트의 목표와 대략적인 스펙은 <그림1>과 같았습니다.

 

그림1. AI 아나운서 프로젝트 요약

 

 

2. AI 아나운서 모듈 설계

AI 아나운서 영상을 구현하기 위해서는 목소리 생성 AI(Text To Speech, TTS) 얼굴 생성 AI(Speech To Face, STF) 기술이 필요한데요! 현재 텍스트를 입력하면 얼굴 영상을 바로 생성하는 기술이 존재하지 않기 때문에 기술이 성숙화된 TTS 기술과 STF 기술을 활용하기로 결정했습니다.

먼저 TTS를 활용해 뉴스 텍스트를 음성으로 변환하고, 이 음성에 적절한 얼굴 영상을 생성하도록 설계하였습니다. 이 때, 음성신호 안에는 입술, 턱, 얼굴 근육의 움직임 정보만 포함되기 때문에 그 정보만으로는 완전한 얼굴 영상을 생성하기 어려운데요. 음성 신호 외에 얼굴 생김새 자체를 입력하여 좀 더 실제와 유사한 영상을 구현하고자 했습니다. 템플릿 동영상을 input으로 STF 기술을 활용하였고, 이 둘을 병합하는 형태로 <그림2>와 같이 모듈을 구성하였습니다. 또한, 빠른 프로토타입 개발을 위해 외부 음성 생성 전문 회사로부터 TTS 엔진을 구매하고, 저희는 얼굴 생성 AI에 집중하기로 했습니다.

 

그림2. AI 아나운서 모듈 구성도

 

 

3. 데이터 전처리 과정 및 데이터의 중요성

먼저 학습 데이터로는 방송사로부터 전달받은 약 3시간 30분 분량의 뉴스 영상을 사용하였습니다. 해당 영상에는 학습 데이터로는 부적절한 부분도 포함되어 있었기 때문에, 학습에 필요한 부분(아나운서의 얼굴과 목소리만 또렷하게 나오는 부분)만 추출해 내는 데이터 전처리 작업이 필요했습니다.

배경 음악이나 다른 기자의 목소리 등 잡음이 없는 상태에서 카메라 쪽을 바라보는 구간만 학습에 사용될 수 있도록 데이터를 정제하는 과정을 거쳤는데요! 저희는 그간 동영상 연구를 통해 동영상에서 특정 인물을 탐지하는 기술을 높은 수준으로 확보했기 때문에 해당 기술을 활용해 짧은 시간 내 우수한 품질로 데이터를 정제할 수 있었습니다. 전체적인 과정은 <그림3>과 같습니다.

 

그림3. 데이터 전처리를 포함한 학습 과정


다만, 저희가 음성 인식 기술을 확보하지 못한 상황이었기 때문에 음성 관련 부분은 수작업으로 진행하게 되어 아쉬웠는데요. 프로토타입 개발이 끝난 현재 음성 데이터 전처리에 필요한 STT(Speech To Text) 기술과 디지털 휴먼에 특화된 TTS 기술을 내재화하기 위한 작업을 진행 중이며, 앞으로는 더욱 효율적으로 데이터를 전처리할 수 있을 것으로 기대됩니다.

 

 

4. 개발 결과 및 향후 과제

AI PLUS 2020 컨퍼런스에 참석하셨던 분들은 결과 동영상을 보셨을 텐데요! 음성이 주어졌을 때 해당 음성을 기반으로 얼굴 영상을 생성하는 부분은 <그림4>와 같이 여러 템플릿 동영상을 사용해서 봐도, 사람의 눈으로는 AI가 생성한 동영상인지 알아보기 어려울 정도의 퀄리티였습니다. 아쉽게도 라이센스 문제 등으로 현재 포스팅에서는 영상을 보여 드릴 수가 없지만, 현재 정식 서비스를 준비 중이라 올해 초에는 실제 뉴스 방송 등에서 만나 볼 수 있을 것으로 기대됩니다. 

 

그림4. AI 아나운서 개발 결과 화면


지난 3개월간 AI 아나운서의 가능성을 타진해보는 프로토타입용으로 개발했기 때문에 기능적인 부분만 고려하면 완성된 기술로 보이지만, 효율성 측면에서는 개선해야 될 부분이 많다고 생각되는데요! 이정도 품질을 얻기 위해서 과연 3시간 분량의 데이터가 꼭 필요한 것인지, 모델 크기를 더 줄일 수 있는지 등 효율성 측면에서 기술 전반을 검토해보고, 차근차근 개선해 나갈 예정입니다.

 

또한, 기술 고도화를 위해 뉴스 방송에 최적화된 아나운서 전용 TTS 모듈을 자체 개발하여 AI 아나운서 모듈의 핵심 구성요소를 자체 기술로 완성할 예정인데요! AI 아나운서와 관련된 더욱 자세한 소식은 기술블로그를 통해 확인 부탁드리며, 실제 서비스 출시까지 관심있게 지켜봐주시기 바랍니다. 감사합니다.

 

 

 
[관련 글 보러가기]

 

AI PLUS 2020 컨퍼런스, 그 행사 현장 속으로!

[BY 이스트소프트] 안녕하세요, 이스트소프트 공식 포스트입니다. 오늘은 지난 7일, 많은 분의 관심 ...

m.post.naver.com

 

관련글 더보기

댓글 영역