[취재] '알파고가 말도 한다?' 구글, 음성 생성 시스템 '타코트론2' 공개

게임뉴스 | 강승진 기자 | 댓글: 13개 |

알파고가 자신의 목소리로 바둑돌 위치를 직접 가리키는 날이 올까?

구글의 인공지능 관련 기업이자 알파고를 개발한 딥마인드(DeepMind)가 인간 발성과 유사한 수준의 발성 능력을 지닌 텍스트 음성 변환 시스템 '타코트론2(Tacotron2)'를 공개했다.

논문 아카이브 arXiv.org에 게재된 보고서에 따르면 딥마인드의 '타코트론2'는 2가지 심층신경망을 통해 문자를 인간과 거의 비슷하게 모방한 음성으로 변환한다.

'타코트론2'는 우선 문자를 시각적으로 분석할 수 있는 스펙트로그램으로 변환한다. 스펙트로그램이란 소리, 파동 따위를 시간과 주파수 축의 변화에 따라 농도와 표시 등으로 나타낸 것이다. 이후 변환된 스펙트로그램은 구글 딥마인드의 시스템 웨이브넷(WaveNet)에 업로드된다. 시스템은 이를 분석하여 해당 음성 요소들을 생성한다.




웨이브넷의 알고리즘은 분석을 통해 다른 목소리를 쉽게 배우며 자연스러운 호흡도 인공적으로 생성해낸다. 구글이 공개한 사이트는 '타코트론2'가 상기한 호흡 외에도 문구의 의미에 따른 발음 차이를 인식하고 구두점의 위치, 단어 강조, 운율, 대명사 구분 등을 배운다고 설명하고 있다.

또한, 연구진은 타코트론으로 생성한 음성의 품질 측정 점수 중 하나인 MOS(Mean Opinion Score) 점수는 4.53으로 실제 사람이 녹음한 음성 점수인 4.58과 유사한 수준이라고 밝혔다.

실제 사람이 녹음한 음성과 '타코트론2'가 생성한 음성 비교는 아래 예제 사운드에서 확인할 수 있다.


▲ 예제1 녹음 음성


▲ 예제1 생성 음성


▲ 예제2 녹음 음성


▲ 예제2 생성 음성

댓글

새로고침
새로고침

기사 목록

1 2
검색