배경: 템포스톰 창업자 레이나드가 최근 템포스톰 메타 스냅샷에 대한 비판에 대해 반박하는 영상을 본인 유튜브 채널에 올렸는데, 그 과정에서 경쟁사 비셔스 신디케이트의 데이터 리퍼 메타 리포트를 언급하면서 깎아내림.
이에 대한 비셔스 신디케이트 측 반박
번역해봤습니다 길어요
안녕하세요 하스스톤 커뮤니티 여러분.
저는 vS 데이터 리퍼 팀의 팀장이자 프로젝트 창시자인 ZachO입니다. 저는 프로젝트의 수장이면서도 주간 리포트 작성/편집이나 그 리포트가 근거한 통계분석을 하는 저희 데이터 분석가들과 함께 일하는 등에 있어서 제가 직접 프로젝트에도 많이 참여하는 편입니다. 저희 데이터 분석가 분들 중에는 박사 학위를 가지고 있는 대학교 교수님이 두 분 계시고, 그 두 분의 데이터 분석 경력은 도합 30년이 넘습니다. 또한 프로그래밍을 담당하고 있는 컴퓨터공학 전공의 엔지니어도 계십니다. 저희 스태프 분들은 (하스스톤과 무관한) 과학 저널에 출간을 한 경험도 있으며, 데이터 분석과 결론 도출에 전문가들이십니다. 따라서 저희 팀은 "아무나"가 아닙니다.
저는 Reynad씨가 최근에 저희 vS 데이터 리퍼 리포트에 대해 논한 "메타 스냅샷에 대한 오해" 라는 영상에 대한 이야기를 하고자 합니다. Reynad씨는 메타 스냅샷에 대한 커뮤니티의 비판에 대해 얼마든지 반박할 권리가 있습니다. 저희는 Reynad씨가 하스스톤 관련 컨텐츠에 쏟은 노력에 대해서 감사하게 생각합니다. 만약 Reynad씨가 본인의 제품과 팀이 부당한 평가를 받고 있다고 느끼신다면, 그 비판에 대응하는 것이 당연합니다.
하지만 해당 영상은 거기서 끝나지 않습니다. 경쟁상대를 공격하지 않겠다는 말에도 불구하고 16분경부터 Reynad씨는 저희 비셔스 신디케이트의 데이터 리퍼 리포트를 폄하하고 무거운 펀치를 날렸습니다. 데이터 리퍼가 운영되는 방식, 저희 방법의 '오류', 그리고 왜 저희 데이터가 "매우 신뢰가 떨어지는지" (20:49) 에 대해 주장을 펼치셨습니다.
짧은 요약 (하지만 다 읽어보시길 권장드립니다): 데이터 분석과 vS 데이터 리퍼의 제작 과정에 대해서 Reynad씨는 본인이 무슨 소리를 하는지 전혀 알지 못하고, 이해하지 못하며, 저희가 운영하는 방식에 대해서 아무런 지식이 없는듯 합니다. 저는 Reynad씨가 엄청 잘못 알고있는 것이라고 믿고 싶습니다. 그게 아니라면 다른 가능성은 Reynad씨가 고의적으로 본인의 팬들에게 데이터 리퍼에 대한 오해를 퍼뜨린 것입니다. 저는 어느 쪽이든 신경쓰진 않지만, 제가 열심히 일한 프로젝트의 신뢰도가 공격받고 있기 때문에 몇가지 부분에 대해 해명해야 할 필요성을 느낍니다. 아이러니한 것은 잘못된 정보로 인해 자신의 제품이 비판받는 것에 대해서 불평하던 사람이 "경쟁사" 제품에 대해서는 자기도 잘못된 정보로 비판에 나섰다는 점입니다.
첫번째 포인트, 덱유형 인식
영상에서 Reynad씨는 한 덱의 게임 전적을 보여주면서 Track-o-Bot (TOB)의 덱유형 인식 기능에 문제점이 있다는 것을 보여주셨습니다. 어떤 덱으로 플레이 중인지 성공적으로 파악하지 못했기 때문에 해당 기능이 오래됐고 정확하지 않은 것은 매우 분명합니다. TOB의 정의 알고리즘은 몇달째 업데이트 되고 있지 않습니다.
Reynad씨가 저희 FAQ 페이지를 방문하셨다면 이런 "오해"는 금방 풀리셨을 겁니다. 저희는 덱 유형을 파악할 때 TOB의 인식 알고리즘에 의존한 적이 한번도 없습니다. 그 알고리즘은 업데이트가 있은지 엄청 오래됐고, 업데이트가 되어있다 하더라도 저희는 사용하지 않았을 겁니다. 저희는 TOB와 완전히 별개이며 독립적인 방법을 사용하며, 더 상세하고 유연한 방법입니다. 게다가 Reynad씨는 "비셔스 신디케이트는 한번에 16가지 덱유형만 추적한다"라고 틀린 주장을 하셨습니다. (21:45) 저희 상성표를 방문하셔서 간단히 셈만 해보면 가장 최신 리포트에 (16가지가 아니라) 24가지 유형이 있는걸 알수 있습니다. 저희는 사실 24개 이상을 추적하지만 어떤 덱유형들은 믿을만한 승률이 없기 때문에 표에 포함하진 않습니다.
저희는 저희가 덱을 파악하는 방식에 자부심을 가지고 있습니다. 저희 알고리즘은 상당히 세련됐고 제가 직접 1주일에 2번씩 업데이트합니다. 말 그대로 제가 직접 앉아서 알고리즘의 성공률을 모니터하고, 필요하다면 메타의 자연스러운 변화와 덱 유형에 따른 카드채용에 따라 알고리즘에 변화를 줍니다. 사람들이 말하는 것처럼 덱 유형을 정확하게 파악하는 데는 여러가지 문제점이 있을 수 있습니다. 저희는 이러한 것들을 숙지하고 있으며, 그러한 문제점들이 저희의 통계 분석과 결론에 영향을 끼치지 않도록 알고리즘을 만듭니다. 예를 들어 후반부 카드만으로 덱을 파악한다면 게임이 후반부까지 갈 경우에만 그런 유형으로 분류되고, 아닌 경우는 데이터에서 제외되는 표본선택편의가 생길 수 있습니다. 당연히 승리조건을 달성할 경우에 이길 가능성이 더 높기 때문에 그럴 경우 실제보다 승률이 더 높게 집계될 것입니다. 저희는 저희 인식 알고리즘에 그러한 편의가 존재하지 않도록 상당한 주의를 기울입니다.
저희 웹사이트를 방문하시는 분들은 알고리즘이 작동하는걸 직접 보시고, 저희가 덱 유형을 구분하는 방법이 정확한지 판단하실 수 있습니다. 저희 덱 라이브러리의 모든 페이지에는 모든 덱과 유형에 사용되는 카드들을 보여주는 사용빈도 레이더 지도가 있습니다. 예시- 어그로 주술사 페이지(www.vicioussyndicate.com/deck-library/shaman-decks/aggro-shaman/) 저희의 덱 정의에 사소한 변화나 오류라도 있으면 제가 직접 발견해서 고칠 수 있습니다. 저희 성공률은 상당히 높고, 알고리즘의 산출결과는 투명하게 모두에게 공개되어 있습니다. 카드 몇 장을 바꿨다고 저희 알고리즘에서 인식이 안된다는 Reynad씨의 주장은 말도 안 되는 소리입니다. Reynad씨가 영상에서 강조하는 "문제점"들은 과장되었고 터무니없으며 저희 능력으로 해결 가능한 부분입니다. 잘못된 주장으로 해당 주제에 대한 심각한 무지를 보여줄 뿐입니다.
두번째 문제, "데이터 vs. 전문가 의견" 논쟁
솔직히 말해서 vS 데이터 리퍼가 단순한 데이터만을 제공한다는 몇몇 사람들의 인식에 대해 불만입니다. 데이터에선 해석이 아주 중요하고, 데이터 가공, 정리, 프레젠테이션, 결론 도출에는 전부 전문 지식이 필요합니다. 데이터를 가지고도 무의미하거나, 더 나쁜 경우에는 오해의 소지가 있는 방식으로 보여드릴 수도 있습니다.
데이터 리퍼는 단순히 커뮤니티에 수치를 토해내지 않습니다. 데이터를 분석해서, 각종 통계적 편의를 없애는 공식으로 계산하여, 전문가 의견과 함께 보여드리는 프로젝트입니다. 저희는 저희가 제공하는 데이터가 신뢰성 있고, 잠재적 편의가 없으며, 통계적으로 유효해서 신뢰할 수 있는 결론을 도출할 수 있게 하기 위해서 노력합니다. 그렇지 않다면 결론을 제공하지 않거나, 독자분들이 성급한 결론을 도출하는 것에 대해서 주의를 드립니다. 저희가 데이터 분석에 있어서 가장 기본적인 문제에 대해서 모를 것이라고 생각하는 것은 매우 거리가 먼 이야기입니다.
저는 생물학 연구 경력이 있으며, 저희 수석 데이터 분석가는 회계학 교수님이십니다. 그 외에도 박사 학위를 가진 분이 한 분 더 있습니다. 저희는 숫자를 가지고 장난치는 애들이 아니라 데이터 분석으로 먹고 사는 사람들입니다. 하스스톤은 취미로 하는 어른들이지만, 저희는 이 프로젝트의 통계적 분석에 대해서 아주 진지하게 생각합니다. 데이터에 문제가 있으면 그걸 해결할 수 있도록 커뮤니티 여러분과 얼마든지 의논하고자 합니다. 초반에 저희는 데이터 분석에 대해 잘 알고계신 많은 분들한테 피드백을 받았고, 그런 분들과 협업해서 하스스톤 커뮤니티의 지식수준을 높일 수 있었기에 매우 기쁩니다. 또한, 저희 작가진에는 검증된 경력을 가진 상위권 플레이어들이 많이 있습니다. 그 중에는 블리즈컨 본선 진출자도 있으며, 래더와 대회에서 성공을 거둔 다른 선수들도 있습니다. 데이터 리퍼는 "아만보"들이 쓰는게 아닙니다.
따라서 논쟁은 데이터 vs. 전문가 의견이 아니라, 단지 전문가 의견만으로 덱의 강약을 결론짓기에 충분하냐는 겁니다. 그렇지 않습니다. 저는 Reynad씨가 저희 제품을 비난하려고 "의도한" 것은 아니지만, "실수로" 그렇게 되었다는걸 알고 있습니다. 저는 Reynad씨를 용서합니다. 왜냐면 저도 그럴 거니까요. Reynad씨의 당당한 주장과 달리, 저는 템포스톰 메타 스냅샷에 나와있는 승률이 실제와 다른 적이 너무 많아서 거기에 실제로 무슨 근거가 있긴 한건지 의문입니다.
템포스톰은 가젯잔 출시 후 첫 주에 비취 드루이드가 다양한 주술사 유형을 상대로 60%가 넘는 승률을 보여준다고 주장했습니다. 그런데 1주일 후에 비취 드루이드는 갑자기 주술사 상대로 매우 불리한 상성으로 바뀝니다. 물론 vS 리포트를 보신 분이라면, 저희의 첫 주차 리포트의 수치가 템포스톰이 2주차에 "고친" 수치와 가깝다는 것을 아실 겁니다. 예시는 더 있습니다. 템포스톰은 어떤 주에는 리노법사가 어그로 주술사를 상대로 약하기 때문에 메타에서 힘들다고 합니다. 그리고 그 다음 주에는 리노법사가 어그로 주술사를 상대로 강하기 때문에 메타에서 좋다고 합니다. 웃긴 점은 대부분의 경우 템포스톰의 수치와 전문가 의견은 결국 vS와 일치하는 쪽으로 바뀐다는 점입니다.
전문가 의견의 문제점은 개인이 아무리 게임을 잘한다 해도 덱의 성능에 대해 공정한 판단을 내릴 수 없다는 점입니다. 개인이 뛰어넘을 수 없는 근본적인 문제이기 때문에 큰 데이터 표본을 참조하는 것이 엄청 중요한 이유입니다. 상위권 플레이어라면 상대보다 더 잘하기 때문에 비취 드루이드를 래더에서 돌려서 주술사 상대로 좋은 승률을 올리는 것이 가능합니다. 템포스톰의 방법을 정당화하기 위해 흔히 언급되는 이런 "최적의 플레이"에 의한 승률보다는 양쪽의 플레이어가 동등한 실력을 가졌을 때의 승률이 중요합니다. 핵심은 양쪽 덱의 승률을 대규모로 계산해서 실력 격차에 의한 편의를 줄이는 겁니다. 그게 바로 데이터 리퍼가 승률을 계산하는 방식입니다.
그럼 데이터 리퍼의 승률이 완벽할까요? 아닙니다. "진짜" 이론적 승률은 관측불가능하기 때문입니다. 통계학에서 절대적인 것은 없습니다. 저희가 올리는 승률 추정치는 통계학에서 "점추정값"이라고 합니다. 각각의 승률은 종형 곡선의 정점을 뜻하며 그렇게 취급되어야 합니다. 개인의 승률은 그 종형 곡선 내에서 차이가 있을 수 있으며, 덱 빌드의 편차도 영향을 줄 겁니다. 상대가 서로 동등한 실력이고 덱을 운용하는 능력이 비슷하다고 가정하면 (전설이건 5급이건 래더에서는 종종 일어나는 일입니다) 그 수치는 실제와 매우 가까우며, "전문가 의견"보다 더 정확하다는 것을 여러번 보여줬습니다.
vS 파워랭킹도 마찬가지입니다. 만약 리노흑마가 모든 수준에서 50% 이하의 승률을 보여준다면, 그건 리노흑마가 불리한 메타이기 때문입니다. 얼마나 '잠재적으로' 그 덱이 강한지는 상관없습니다. 지금 그러는 것처럼 불리한 상성을 많이 만난다면, 덱의 승률이 낮을 것이고 저희 수치로는 1티어가 되지 못합니다. 현재 메타를 보면, 리노흑마는 객관적으로 1티어가 아닙니다.
3번째 문제, "실력차" 문제
Reynad씨가 언급하기도 하셨지만, 데이터 리퍼에 대한 흔히 하는 쉬운 비판 중 하나가 실력차 문제입니다. 좋지만 운용하기 힘든 덱이 있다면, 데이터에선 실제보단 약하게 나온다는 것입니다. 현재 그 예시로 많이 언급되는건 많은 사람들이 어려운 덱이라고 하는 리노 흑마입니다. 과거의 예시로는 데이터 리퍼가 나오기 전에 승승장구하던 손님전사입니다.
제가 이걸 "쉬운 비판"이라 하는 이유는 반박하기는 어렵기 때문입니다. 주관적인 의견과 "최선의 플레이"라는 추상적인 개념에 근거한 비판입니다. 이게 사실이려면 단순히 리노흑마가 어렵다고 하는걸론 충분하지 않습니다. 리노흑마가 게임 내 다른 덱들보다 더 어려워야 합니다. 리노흑마가 리노법사나 미라클도적보다 어려운가요? 아니라고 반대로 말하는 분들을 많이 찾을 수 있을 겁니다. 어그로 주술사가 실력이 꽤 필요하다고 하는 상위권 플레이어들도 많습니다. 어떤 분들은 사람들이 리노흑마 상대를 잘못하고 있다고 합니다. 어그로덱이 반드시 컨트롤덱보다 최적의 플레이를 하기 쉬운 것은 아니고, 한 덱의 난이도는 사람마다 다를 수 있습니다. 데이터 위주의 시스템에서 본인의 경험을 근거로 어떤 덱의 수치가 잘못돼 있다고 주장하는건 그냥 말 그대로 주장에 불과합니다.
손님전사는 한때 전설 등급에서 지배적인 덱이었습니다. 실력도 많이 필요했고, 매달 전설 상위 100위를 가득 채울 정도로 개체수도 많았습니다. 매 주 수만 건의 전설 등급 게임을 집계하는 저희가 이러한 사실을 데이터에서 놓쳤을 것이라는건 참 편리한 주장입니다. 편리하지만 물리적 증거가 없으므로 반박이 불가능합니다.
저희가 강조하고 싶은 사실은 데이터 리퍼는 실력을 무시하지 않습니다. 저희는 전설 등급의 게임들에 대해 별도의 승률 자료를 가지고 있고, 이를 전설 등급의 파워랭킹을 계산할 때 사용합니다. 하지만 그러면 어떤 사람은 "전설 유저들도 실력 별로야. 정말 엘리트 선수들의 게임만 쳐야 해. 그래서 진짜 승률이 어떤지 알고있는 저 선수단의 말만 들어야 돼" 라고 할지도 모릅니다. 저희는 기회가 있을 때마다 상위 레벨 대회에서의 승률 데이터를 수집했습니다. 대부분 HCT 예선에서 그랬고, 관련해서 기사를 쓴 적도 있습니다. 이런 노력 끝에 저희가 내린 결론은 충분히 커다란 표본이 있는 경우 그 승률은 "실력없는 유저들"이 수집한 저희의 래더 승률과 상당히 일치한다는 점입니다. 이는 실력차에 의한 편의를 줄이거나 없애는 공식으로 만들어낸 저희 승률표가 신뢰성 있는 합당한 도구라는 점을 보여줍니다.
참고로 저희가 데이터를 수집하는 "실력없는 유저들" 중에는 개인정보 문제로 공개할 수는 없지만 유명한 분들도 꽤 있습니다. 많은 상위권 유저 분들이 대회 준비과정에서 저희 제품을 사용하고, 그 혜택을 보고 있습니다. 최근 많은 전문가들이 확장팩 초기에 리노법사가 쓰레기라고 했지만, 저희는 가젯잔 첫번째 리포트에서 잠재적으로 메타를 때려부술 수 있다고 평했습니다. 그 전문가들 중에서 리노법사를 한번 해보고 나서 저희랑 동의하는 분들이 몇분인가요?
결론을 내리자면, Reynad씨는 하스스톤 커뮤니티에 큰 공헌을 하셨습니다. 하지만 그 분은 프로가 아니고, 주장하시는 바와 달리 통계학이나 데이터 분석에 전문가가 아닙니다. 본인의 팀과 제품을 옹호하는 것은 몰라도, 동료 컨텐츠 제작자와 커뮤니티 구성원들에 대해 근거 없는 공격을 하는 것엔 문제가 있습니다. 저희 모두 따지고 보면 더 배워서 더 나은 플레이어가 되는게 목적이니까요. Reynad씨는 공개적으로 "경쟁자"이자 동료 컨텐츠 제작자를 폄하하기로 결정하셨습니다. Reynad씨가 말한 것들 중 많은 부분은 잘못된 정보와 무지에서 비롯된 겁니다. 다른 부분은 데이터 리퍼 팀이 데이터에서 편의를 없애려는 노력을 무시하는 게으른 주장입니다. 어떻게 사전조사도 전혀 없이 평가를 내릴 수 있을까요? (FAQ도 안 읽으시고?) 은근한 선동에, 놀랍지도 않은 근거없는 발언뿐인 귀여운 영상이지만, 유튜브 조회수 많이 나왔으니 팩트는 뭐 상관 없다는 거겠죠?
지금까지 읽어주셔서 감사하고 데이터 리퍼 프로젝트를 응원해주셔서 감사합니다. 솔직하게 커뮤니티로부터의 엄청난 피드백 없이는 계속할 수 없었을 겁니다. 데이터 리퍼와 관련해서 궁금점이 있다면 메시지를 하시면 (레딧, 웹사이트, 디스코드) 답변을 해드리도록 노력하겠습니다. 저희는 절대 비판여론을 회피한 적이 없고, 저희 방법에 대해서 항상 투명했고, 저희 방법의 한계에 대해서도 항상 투명했습니다.
새해 복 많이 받으세요.
ZachO (vS 데이터 리퍼 팀 창시자)
유정게를 양분하는 양대산맥의 싸움 ㄷㄷ