[NDC26] '블루 아카이브', TTS임에도 빠져드는 목소리를 만드는 방법

커뮤니티메뉴

홈
웹진

[NDC26] '블루 아카이브', TTS임에도 빠져드는 목소리를 만드는 방법

게임뉴스 | 기자: 윤홍만 기자 | 댓글: 1개 | 18:08

주제: 내가 미소녀 목소리를 만들 수 있을 리 없잖아, 무리무리! (※무리가 아니었다?!) - SBV2 오픈소스를 활용한 한국어/일본어 TTS 모델 개발기

강연자 : 김명지 넥슨게임즈 IO본부 위그드라실 ML팀 파트장

발표분야 : 인공지능

권장 대상 : 오픈소스 모델의 다국어 확장 과정이 궁금하신 분

관심태그 : #TTS #Model Porting #G2P

[🚨 강연 주제] 본 세션에서는 일본어 기반의 SBV2 모델을 알아보고, 한국어 환경에서 구동시키기 위해 수행했던 한국어 G2P 로직 구현, BERT 한국어 모델 이식 과정, 그리고 LLM 등 다른 AI 모델을 활용한 데이터 전처리 및 감정 라벨링 자동화 등 구체적인 기술적 해결 방법과 시행착오를 상세히 다루어보려 합니다.

콘텐츠 업계에서 TTS(Text to Speech)는 이제 익숙한 기술이다. e북 리더기처럼 텍스트를 음성으로 읽어주는 기능은 물론, 유튜브 등 각종 영상 콘텐츠 제작 과정에서도 제작자가 직접 녹음하는 대신 TTS를 활용하는 사례가 적지 않다. 게임 업계 역시 예외는 아니다. 화려한 성우진을 자랑하는 게임들조차 다양한 이유로 TTS를 활용하고 있다.

대표적인 사례가 넥슨게임즈의 '블루 아카이브'다. 게임의 마스코트라 할 수 있는 아로나는 게임 내에서 플레이어의 이름(아이디)을 직접 불러주는데, 이는 성우가 사전에 녹음한 음성이 아닌 TTS 기술을 활용해 구현한 기능이다. 플레이어의 몰입감을 높이기 위한 장치인 셈이다.

그렇다면 넥슨게임즈는 이처럼 자연스러운 TTS를 구현하기 위해 어떤 노력을 기울였을까. NDC 2일 차 세션 '내가 미소녀 목소리를 만들 수 있을 리 없잖아, 무리무리! (※무리가 아니었다?!) - SBV2 오픈소스를 활용한 한국어/일본어 TTS 모델 개발기'에서는 자연스러운 TTS 구현을 위해 거쳐온 개발 과정과 시행착오가 공유됐다.

IO팀은 왜 TTS에 공을 들였을까? - 핵심은 '몰입감'

오늘날 서브컬처 게임에서 유명 성우진의 참여는 더 이상 특별한 일이 아니다. 그런 가운데 '블루 아카이브'는 수많은 성우진을 보유하고 있음에도 이례적으로 TTS 기술 개발에 많은 공을 들이고 있다.

이에 대해 김명지 파트장은 "캐릭터와 플레이어의 상호작용 경험을 통해 실제로 소통하는 것처럼 느끼게 하기 위해서"라고 설명했다.

제아무리 성우가 열연을 펼친다 해도 녹음된 음성이라는 한계는 존재한다. 반면 TTS는 필요한 조건만 갖춰진다면 실시간으로 새로운 음성을 생성할 수 있다. 아로나가 플레이어의 이름을 직접 불러주는 기능이 대표적이다.

하지만 IO팀의 목표는 단순히 이름을 불러주는 수준에 머무르지 않았다. 감정이 거의 느껴지지 않는 기존 TTS의 '국어책 읽기' 같은 음성을 넘어, 아로나라는 캐릭터의 개성을 살리면서도 자연스러운 목소리를 구현하는 것을 목표로 삼았다.

이를 위해 가장 먼저 진행한 작업은 최적의 TTS 모델 선정이었다. 다양한 오픈소스 TTS 모델이 존재하는 만큼 검증 과정도 쉽지 않았다. IO팀은 캐릭터성, 감정 표현, 자연스러움이라는 세 가지 기준을 중심으로 각 모델을 비교 분석했다. 어느 것 하나 중요하지 않은 부분이 없었지만, IO 팀은 세 가지 기준 중에서도 특히 자연스러움에 많은 비중을 뒀다. 이러한 자연스러움이 몰입감에 차이를 가져올 것이라고 여긴 것이다. 그렇게 단어 사이의 호흡, 장음 표현, 높낮이에 따른 악센트, 노이즈 발생 여부 등을 다각도로 검수한 끝에 최종적으로 SBV2(Style-Bert-VITS2)를 채택했다.

선정된 SBV2는 뛰어난 성능을 보여줬다. 일본어는 장음과 악센트에 따라 단어의 의미가 달라지는 언어다. 대표적으로 '유키(ゆき)'는 눈(雪)을 뜻하지만 '유우키(ゆうき)'는 용기(勇気)를 의미한다. 또한 '아메(あめ)' 역시 악센트 위치에 따라, 높낮이를 어디에 두느냐에 따라 비(雨) 또는 사탕(飴)으로 의미가 달라진다.

SBV2는 이처럼 문장을 분석하고 문맥을 이해해 자연스러운 발음을 생성할 수 있었지만, 한 가지 문제가 있었다. 바로 한국어를 지원하지 않는다는 점이다. 이에 개발팀은 SBV2의 학습 구조를 분석한 뒤 자체적인 한국어 학습 모델 구축에 나섰다.

없으면 만든다! - 한국어 학습 모델 구축기

개발팀은 SBV2의 일본어 학습 모델을 기반으로 한국어 모델을 구축하는 과정에서 가장 먼저 일본어 전용 기능을 과감하게 제거했다. 한자 처리를 위한 형태소 분석 기능과 일본어 악센트 처리 기능 등이 대표적이다. 이후 한국어 문자를 실제 발음 형태로 변환하는 기능을 추가했다.

이어 BERT 모델 역시 한국어 모델로 교체했다. BERT 모델은 같은 단어라도 문맥에 따라 의미를 구분하는 역할을 수행한다. 예를 들어 '일'이라는 단어가 숫자 1을 의미하는지, 노동을 뜻하는지, 혹은 날짜를 의미하는지를 문맥을 통해 판단하는 방식이다.

한국어 학습 모델 구축을 마친 뒤에는 본격적인 학습 단계에 돌입했다. 하지만 이 과정 역시 순탄치 않았다. 약 600GB 규모의 음성 데이터를 활용해 학습을 진행하던 중 생성자와 판별자의 균형이 무너지는 오버피팅 문제가 발생한 것이다.

생성자와 판별자가 결과물을 비교하면서 자연스럽게 학습하는 게 목표였는데 원래 의도와 달리 판별자가 생성자보다 너무 똑똑한 나머지 초반부터 생성자가 만들어낸 결과물을 초반부터 모두 오답으로 처리했고, 그 결과 생성자가 충분히 발전하지 못하는 문제가 나타났다.

이에 개발팀은 생성자가 먼저 일정 수준까지 학습한 뒤 판별자가 학습하도록 하는 등 양측의 학습 속도를 인위적으로 조절했다. 이를 통해 생성자와 판별자가 적절한 경쟁 관계를 유지하며 함께 성능을 향상시킬 수 있도록 했다.

또 다른 문제는 노이즈였다. 기반 모델을 제작하는 과정에서 특정 음소, 특히 'ㄷ'이 포함된 데이터에서 심한 노이즈가 발생하며 품질 저하 현상이 나타났다.

개발팀의 해결책은 의외로 단순했다. 전체 데이터를 모두 사용하는 것보다 문제가 되는 데이터를 과감하게 제외하는 것이 더 효과적이라고 판단한 것이다. 결국 해당 데이터들을 학습 데이터셋에서 제거함으로써 안정적인 학습 환경을 구축할 수 있었다.

향후 과제 - 코퍼스 구축과 정량 및 정성 평가 체계 마련

김명지 파트장은 향후 과제로 체계적인 정량 평가 및 정성 평가 시스템 구축, 그리고 코퍼스(Corpus) 구축을 꼽았다.

현재는 TTS 결과물을 직접 청취하며 평가하는 방식이 주를 이루고 있지만, 앞으로는 일정 주기로 모델을 추출해 자동으로 평가하는 정량 평가 체계를 도입할 계획이다. 이후 정량 평가를 통과한 모델을 대상으로 정성 평가를 진행하는 다단계 검증 프로세스를 구축해 결과물의 완성도를 더욱 높인다는 방침이다.

코퍼스 구축에도 지속적으로 힘을 쏟을 예정이다. 일반적으로 음성과 텍스트가 결합된 학습 데이터를 데이터셋이라고 부른다면, 코퍼스는 특정 목적을 위해 체계적으로 설계된 데이터 집합을 의미한다.

김명지 파트장은 "현재 한국어 기반 모델은 '~', '...' 같은 문장 부호나 일부 치찰음을 자연스럽게 표현하지 못하는 경우가 있다"며 "향후 코퍼스 구축을 통해 이러한 문제를 개선할 계획"이라고 설명했다.

한편, 넥슨게임즈는 조만간 그들이 만든 SBV2 한국어 모델을 오픈소스로 공개할 예정이라고 밝혔다. 더 많은 개발자와 연구자들이 이를 활용하고 개선할 수 있도록 함으로써 생태계를 함께 발전시키겠다는 취지다.

끝으로 김명지 파트장은 "TTS로 말을 하게 만드는 것 자체는 어렵지 않다"며 "중요한 것은 단순히 말을 하는 것이 아니라 이용자가 캐릭터에 몰입하게 만드는 것"이라고 강조했다. 이어 "앞으로도 이 목표를 잊지 않고 더욱 실제와 같은 목소리를 만들기 위해 노력하겠다"는 포부를 전하며 강연을 마무리했다.