[IGC2018] 심층 강화학습 활용한 AI, "1주일이면 프로게이머 뛰어넘는다"

게임뉴스 | 박광석 기자 | 댓글: 5개 |


▲ 엔씨소프트 Game AI Lab 이경종 실장

[인벤게임컨퍼런스(IGC) 발표자 소개] 이경종 실장은 엔씨소프트의 AI Lab에서 인공지능 연구개발을 담당하고 있다. 대표적으로 '블레이드&소울'에 들어가는 무한의 탑 AI 개발에 참여했으며, 현재 다양한 인공지능 기술을 개발하며 유저들의 게임 플레이 경험의 질적 향상을 위해 노력하고 있다.

지난 2016년 IGC에서 블레이드&소울(이하 블소)을 통해 기계 학습을 이용한 NPC AI 제작 방법과 강화 학습 적용 사례를 소개한 엔씨소프트 게임 AI Lab 이경종 실장은 "AI 기술을 더 발전시켜서 또 한 번 IGC를 통해 공유하고 싶다"고 밝힌 바 있다.

그로부터 2년 후, 그는 '심층 강화학습을 활용한 프로게이머 수준의 AI를 만드는 방법'이라는 주제로 다시 한번 IGC 무대에 섰다. 해당 강연에서는 블소의 더 강력해진 무한의 탑 AI 2.0 버전의 R&D 과정은 물론, 지난 9월에 개최된 '2018년 블소 월드챔피언십 결선'에서 프로게이머와 AI의 대결 이벤트의 준비 과정에 대해서도 들어볼 수 있었다.



■ 강화 학습, 프로게이머를 능가하는 AI를 만들다




이경종 실장이 소속된 엔씨소프트 게임 AI 랩은 게임과 관련된 일을 도와주는 AI 어시스턴트 개발에 집중하고 있는 부서다. '어떻게 하면 지루한 수작업을 줄이고, 사람이 창의적인 일에 전념할 수 있을까?'라는 발상에서 시작하여 기획자, 개발자, 아티스트 등 게임 개발 과정 전반의 구성원들이 활용할 수 있는 다양한 AI를 개발하고 있다.

게임 AI 랩에는 3개의 작은 조직이 존재하는데, 이날 이경종 실장은 강화학습을 포함한 게임에 필요한 머신 러닝 기술 R&D를 진행하는 강화학습 팀의 성과를 소개했다. 엔씨소프트의 강화학습 R&D는 지난 2015년에 시작하여 2016년 '무한의 탑'을 통해 블소 AI v1.0을 선보였고, 2016년에 더 강화된 v2.0 개발에 착수, 지난 9월 15일 블소 월드 챔피언쉽을 통해 최초로 그 모습을 공개했다. 해당 대회에서는 세계에서 내로라하는 블소 고수들과 AI의 치열한 대결이 펼쳐졌는데, 그중에서 공격형 AI는 프로게이머조차 상대되지 않을 정도의 압도적인 강함을 뽐내기도 했다.



◎ '강화학습'이란?

여기서 강화학습은 반복된 트라이얼, 그리고 에러 과정에서 나타나는 피드백을 통해서 학습하는 방식을 뜻한다. 특별한 지도자나 선생님 없이, 아기가 스스로 기거나 걷는 방법을 알아가는 과정처럼 AI에게 반복적인 트라이얼을 시키는 것이다.

예를 들어 팬케이크를 스스로 뒤집는 로봇이 있다고 가정해보자. 로봇의 각 관절에 입력되는 힘을 계속 조절하고, 트라이얼 결과에 따라 '팬케이크를 얼마나 잘 뒤집었는가?'에 대한 피드백을 지속적으로 주입하면 로봇은 스스로 약 50번 내외의 트라이얼 과정을 거쳐 완벽한 뒤집기를 습득하게 된다. 이와 비슷한 예로는 딥마인드의 '플레잉 아타리' 실험이 있다.




강화학습 R&D를 하는 이유는 간단하다. 게임 개발을 위해서는 다수의 숙련된 프로그래머가 오랜 기간 작업을 해야 하는데, 머신 러닝 기반의 자동화 기술을 도입하면 이러한 코스트를 크게 줄일 수 있기 때문이다. 물론 게임에 필요한 AI를 개발하는 과정은 스크립트나 스테이트 머신, 비헤이비어 트리 등의 형태로 이전부터 존재했지만, 이는 모두 수작업으로 프로그래밍을 해야 하므로 개발자의 부담을 줄이는 데에는 효과적이지 않다.

또한, 전통적인 제작 방식으로 만들어진 AI는 블소처럼 다양한 액션과 실시간성이 있는 복잡한 게임에는 적용하기 어렵다는 문제도 있다. 실시간으로 라이브되고 있는 게임에서는 업데이트로 인한 지속적인 수작업도 필요한데, 고품질의 기계학습 기반 AI를 적용하면 이러한 비효율적인 문제들이 모두 해결된다. 강화학습 기반 AI는 트라이얼과 에러를 통해 스스로 학습하고, 일반적인 딥러닝과 달리 학습 데이터가 필요 없기 때문에 라이브 서비스 이전 AI 개발에도 유용하게 활용할 수 있다.

이경종 실장은 실제로 강화학습을 진행한 AI와 하드 코딩으로 만든 AI를 비교해보니 그 차이가 극명하게 드러났다며, 엔씨소프트 내부에서 진행된 간단한 실험 결과를 소개했다. 튜닝부터 디버깅, 코딩까지 다양한 과정을 거쳐 약 한 달 동안 만든 하드 코딩 AI와 단 이틀간의 강화학습을 진행한 AI를 싸우게 한 결과, 강화학습 AI가 '슈퍼 휴먼 레벨'의 성능을 보여주며 압승을 거뒀다는 것이다.

최근에는 강화학습 R&D의 뛰어난 성능에 주목하고 딥마인드, 오픈 AI 등 산업계의 다양한 곳에서 이를 활용한 실험을 계속하고 있는 추세다. 그 활용 분야도 간단하고 혼자서 즐길 수 있는 싱글 게임에서 벗어나 '스타크래프트2'나 '도타2'처럼 더 복잡하고 많은 사람들이 함께 즐기는 멀티 플레이어 게임으로 넓어지고 있다.



▲ 엔씨소프트에서도 블소를 통해 강화학습 R&D를 계속하고 있다


◎ 엔씨소프트의 강화학습 R&D, 심층 강화 학습으로 더 강해진 AI




엔씨소프트는 현재 강화학습 기반 AI를 개발, 블소의 '무한의 탑' 콘텐츠를 통해 서비스를 진행 중이다. 유저는 무한의 탑에서 강화학습 R&D를 통해 만들어진 11개 직업의 AI를 상대로 비무를 펼칠 수 있다. 하지만 최초로 추가된 v1.0는 기술적으로 아쉬운 부분이 많았고, 이를 보완하기 위해 '심층 강화 학습'이 적용된 v2.0 개발이 추진됐다. v2.0는 사용자 전투 로그를 활용하여 특별한 규칙 없이 온전히 기계 학습만으로 성장하는 AI다.

이경종 실장은 이러한 R&D를 하고 있으면 '알파고 제로의 검증된 알고리즘을 그대로 적용하면 좋지 않느냐?'라는 질문을 자주 듣게 된다고 밝혔다. 하지만 블소의 비무 AI는 바둑보다 훨씬 많은 경우의 수를 갖는다. 보통 바둑에서의 경우의 수를 10^768이라고 말하는데, 블소의 AI는 현재 상황, 직업별로 사용 가능한 스킬 50개, 총 11개 직업이라는 조건을 넣어 매 순간마다 가장 적절한 스킬과 움직임을 보여줄 수 있어야 하는 것은 물론, 3분의 경기 동안 매 0.1초마다 새로운 디시전이 필요하므로 약 800^1800의 경우의 수를 갖게 된다고 할 수 있다.

또한, 알파고 제로의 근간이 되는 '몬테카를로 트리 서치'는 시뮬레이션을 거쳐 어떤 것이 더 좋은지 판단하기 때문에 매우 강력하지만, 속도 제약 때문에 턴제 방식으로 진행되는 게임이 아니면 사용하기 힘들다. 0.1초에 한 번씩 디시전이 필요한 블소와 같은 실시간 게임에는 어울리지 않을 수밖에 없다.




블소의 심층 강화학습 기반 AI는 AI가 자기 자신 또는 다른 AI들과 대결해서 스스로 학습하도록 하는 방식을 취하고 있다. 이는 시뮬레이터 학습 시스템 개발 - 싱글 트레이너 강화학습 - 셀프러닝 - 멀티 트레이너 강화학습 순서로 진행된다. 강화학습은 매우 복잡하고 정교한 알고리즘을 가지므로, 단계적으로 시스템과 알고리즘의 철저한 검증이 요구된다.

이경종 실장은 이러한 단계를 거쳐 블소의 문제에 가장 잘 맞는 알고리즘인 'ACER'를 찾아냈고, 결과적으로 v1.0보다 학습 속도를 크게 향상시킬 수 있었다고 소개했다. 단일 상대는 물론, 복수의 트레이너를 상대할 때도 뛰어난 성능을 보인 것이다. 그는 더욱 디테일한 알고리즘을 현재 논문으로 정리 중이라며, 추후 논문을 발표하면 다시 공개할 것이라고 밝혔다.

엔씨소프트의 AI 연구소가 공개한 영상을 보면, 블소 AI가 강화학습을 거쳐 1주 만에 월등히 향상되는 모습을 확인할 수 있다. 그는 검증을 계속하며 자신감을 얻었고, 실제 최고 수준의 블소 프로게이머를 섭외하여 진행한 비공개 테스트에서도 승리를 거뒀다고 설명했다. 특히 공격적인 성향에 집중한 AI는 비공개 테스트 기간 동안 단 한 번의 패배 없이 100%의 승률을 보였다. 이는 실시간 게임에서 FSM, 비헤이비어 트리와 같은 규칙 하드 코딩 없이도 최고 수준의 AI 제작이 가능하다는 것을 의미한다.

▲ 엔씨소프트 AI 랩이 공개한 블소 AI의 강화학습 과정


◎ 블소 월드 챔피언쉽을 통해 공개한 '프로게이머 대 AI' 이벤트




이경종 실장은 '어떻게 하면 유저들에게 재미를 줄 수 있는 방식으로 AI를 사용할 수 있을까?'라고 고민한 끝에 엔씨소프트의 대표적인 e스포츠 행사인 '블소 월드 챔피언쉽'을 통해 블소 AI v2.0을 선보이기로 했다. 시즌을 거쳐 선발된 각 국가의 고수들이 모이는 대규모 행사였기에, 더 강해진 블소 AI의 공개 무대로써 적합하다고 판단했기 때문이다.

그냥 AI의 강함을 보여주는 것이 아닌, 게임회사다운 재미있는 쇼를 위해 '공수 밸런스형', '수비형', 그리고 '공격형'의 특징을 지닌 다양한 난이도의 AI가 마련됐다. 3전 2선승제의 모든 경기마다 1세트엔 난도가 낮은 AI가 출전하고, 2세트부터 강한 AI가 출전하는 방식이다.

AI의 타입은 리워드 조정에 따라 얼마든지 다양한 형태로 만들 수 있다. 시간이 지날수록 페널티를 받는 리워드를 설정하면 절대 물러서지 않는 호전적인 AI가, 자신의 HP가 줄어들수록 페널티를 받는 리워드를 설정하면 가능한 선공을 하지 않는 수비적인 AI가 완성된다. 전체적인 성능 및 체감 난이도로는 공격형 AI가 가장 압도적인 모습을 보였고, 수비형과 공수 밸런스형이 각각 비슷한 성능을 보였다.

실제 블소 월드 챔피언십에서 펼쳐진 AI와 프로게이머의 대결에서도 공격형 타입의 AI는 국내 최정상 프로게이머 상대로 압승을 거뒀고, 현장에 자리한 유저와 선수들 모두가 심층 강화학습을 통해 더 강해진 블소 AI의 가능성을 직접 확인할 수 있었다.



▲ 개발자들의 예상을 능가하는 선수들의 기량을 볼 수 있는 행사이기도 했다

블소 AI v2.0 개발을 어느 정도 마무리한 엔씨소프트 게임 AI 랩은 앞으로 중장기적으로 강화학습 기술 개발과 동시에 더 다양한 분야에서 강화학습을 활용할 수 있도록 탐색을 이어나갈 계획이다. 1:1 비무에 그치지 않고 6명 이상의 유저가 한 번에 붙는 그룹 전투, 더 다양한 가능성이 발생할 수 있는 RTS, MOBA 장르의 게임은 물론, 애니메이션 등등, 강화학습 기술을 활용할 수 있는 분야는 무궁무진하다.

이경종 실장은 끝으로 "여러 선택지가 존재하고 아직 정해진 것은 아무것도 없지만, 다음 기회에는 더 발전된 AI를 개발하여 IGC를 통해 다시 선보일 수 있기를 바란다"는 포부를 밝히며 강연을 마무리했다.

댓글

새로고침
새로고침

기사 목록

1 2 3 4 5