└ LoL/e스포츠 이야기

전체보기

모바일 상단 메뉴

본문 페이지

[일반] [초장문주의] 화이트팽 다시 박제함

아이콘 브라이어
댓글: 65 개
조회: 801
2024-04-25 22:01:49
너무 길어서 PC로 쓴다 ㅋㅋ

[사건 발단 ]
110.10 이  그리는 지표는 조작이 절대 된게 아님

   # 세트 출전 수 상관없이 현재 팀의 주전 선수 기준

   # 선수 지표 내 회색 그래프는 평균값

   # y축 범위 (0.0~1.0) : 해당 지표 최대값=1.0, 최소값=0.2로 선형적 정규화

   # 순위로 나타낸 그래프가 아님. 그래프의 최대값 최소값의 기준만 될 뿐 중간값들은 수치로 정규화됨.

110.10은 그릴때마다 위 기준을 명시하고 있음

gol.gg 의 경기 데이터를 가지고와서 기준범위 0.2~1.0으로 min, max 정규화해서 그린다는거고
실제로 min max 정규화는 가장 기본적인 정규화로 
원천데이터를 조작하거나 위변조하는거 1도 없이 가장 많이쓰는 방식임.
그리고 스포츠에서 선수 스탯 다각그래프로 가장 흔하게 쓰임

근데 whitefang이라는 자칭전문가(내생각엔 그냥 병신)가 아래 링크를 주면서 min max정규화 안쓰는데?? 
이 지랄 시작.
https://images.app.goo.gl/Tr827nguVkM6L7zA9

하지만
안타깝게도 해당 링크의 그래프는 너무나도 min max 정규화 맞았고 
내가 그래서 박제박음
난 범위 0.05~1.0으로  min max 정규화한 그래프라고 바로 설명했고
110.10 그래프하고 차이점도 해당링크 영어원문 바로 긁어와서 
설명까지 다해줌.

결론적으로 110.10 그래프와 동일한 방식으로 그린 정규화 그래프이고
단지 이상치 상하한 5%를 보정했을 뿐임
(이상치 보정 5%를 안했으니깐 110.10의 그래프는 조작된 그래프다 라고 하는 병신은 없길바람ㅋㅋ)

근데 거기에 whitfang 댓글로 개소리를 존나하기 시작함. 



[whitefang  댓글이 개소리인 EU]
1. "저거 스케일링 "하지도 않은" 그래프고, min max도 아니다 ㅋㅋ 내가 머저리라 불리한 그래프 들고온줄알고 신나서 박제하네 ㅋㅋ"
==> 개소리임. 저새끼가 올린 링크 statbomb은 축구 스탯그래프로 유명한 곳인데 정확히 min max 정규화로 그린게 맞음. 아래가 원문임
  • The radar boundaries represent the top and bottom 5% of all statistical production by players in that position across various seasons of data from the top five European leagues: Bundesliga, La Liga, Ligue 1, Premier League and Serie A
  • 너무나도 친절하게 그래프의 경계(바닥/천장)는 5대리그 하위5%, 상위5%를 나타낸다고 설명함 ㅋㅋㅋ
  • min값은 하위 5%, max값은 상위5% 통계값 이라는거임. 이 min max 값을 기준치로 정규화한 다각 그래프임.

2. "아 동일한 110.10이랑 동일한 규칙은 맞지 ㅇㅇ 뭔말하는지 이해했음 ㅋㅋ min과 max를 잡은 기준이 다르고 스케일링은 하지 않았지만 어쨌든 min과 max를 기준으로 그래프를 그린건 맞으니까. 근데 아무런 설명도 없이 데이터 석사학위 있다는 사람이 min max를 naive하게 잡고 그걸 지속적으로 대중에게 노출시키는게 맞냐?"
==> 내가 min, max 정규화 맞다고 지적하니깐 갑자기 동일한 규칙은 맞다고 함.
근데 기준이 다르고 스케일링은 하지 않았대 ㅋㅋㅋ 
110.10은 스케일링 한거고 statsbomb은 안했다는거임?  데이터 범주/범위를 뭘 건드리기라도 했음?ㅋㅋ

석사학위는 누가 있는거임? 110.10이 있다함? 

min max를 naive하게 잡았다는데, naive하게 잡은게 대체 뭐임? 러프하게 잡았다는건가?
gol.gg 데이터 기준으로 min max를 잡은건데 뭔 naive가 나와 ㅋㅋㅋㅋ 설명좀



3. "내가 말하고 싶은건 naive assumption을 사용한 전자(110.10)의 경우와 outlier를 고려해 heuritsic(or intuitive) aproach를 적용한 후자가 최종적으로 min max사이로 표현되는 차트를 만들었지만 근본이 다르고, 니 말대로면 사실 후자의 경우는 사실 숫자를 지멋대로 (input stat이 기설정한 maximum을 벗어나는 경우 truncation함) 바꿨는데 저것도 조작 아니냐? ㅋㅋ"
==> 이거 대체 뭔 개소린지 아시는분 설명좀??
naive assumption이 나이브 베이즈 분류기준을 말하는거? 
뭔 개소리야 각 항목 데이터가 종속관계도 아닌데 나이브 베이즈가 왜나와?? 진짜 궁금.

heuristic(저새끼 스펠링도 틀리게씀) 접근을 적용한게 후자라는데
휴리스틱 접근이란 --> 인공지능이 학습할때 쓴느 방식으로 경험과 시행착오를 통해 배우는거 말함 ㅋㅋㅋ
110.10, statsbomb 그래프 둘다 휴리스틱이랑은 관계 1도없음. 걍 아는단어 존나 지껄인거임
애초에 데이터 기반으로 min max 정규화는 경험/시행착오랑 관계가 없음



4. "min max 사이에서 표현한다는 규칙(정규화 말하는거 아님)이 동일한 건 맞는데 그 근본이 전혀 다르다. dataset을 확인하고 outlier의 존재를 파악해서 저런 data truncation을 110.10이 했냐? 규칙이 똑같다고 저 둘이 동일선상에 올려질 시각화가 전혀 아닌것같은데 ㅋㅋ
그리고 min max normalization의 엄밀한 definition 상에서 MAX(모든 데이터), MIN(모든 데이터)이지 저렇게 min max를 outlier 없애겠다고 임의조정(5%라는 숫자는 제작자가 맘대로 정한 것이니, 분석은 했겠지만)하는게 아님."
==> data set 확인을 어떻게 했다고 말한게 있음?
오히려 110.10은 gol.gg 데이타 가져온걸 항목별로 다 설명하고 있는데
statsbomb은 어디 통계 가져온건지도 모름 ㅋㅋㅋㅋ

outlier의 존재를 파악했다? 
그래프의 모든 항목값을 상위5% 하위5% min max로 퉁쳐서 잡은게 outlier 파악한거임? 
게다가 110.10 그래프는 gol.gg데이터인데 롤 인게임 데이터는 이상치가 거의없음..
분당cs가 200이상으로 튄다든지 그런 경우가 있음?
dpm이 갑자기 한놈이 5000이상 찍을수 있음? 불가능함 ㅋㅋㅋ

data truncation --> 뭔 개소리인지 또 모르겠음ㅋㅋㅋ 걍 아는단어 씨부림
data truncation은 데이터 값 날렸다는건데 아마도 이상치를 제거했다 라는걸 표현하고 싶었고
걍 유식하게 쿼리로 자주쓰는 truncation 단어로 쳐말한듯 

min max normalization의 엄밀한 definition 상에서 ==> I'm 신뢰에요 화법 시작

outlier 없애겠다고 5% 임의조정하는게 아님==> 너 지금 110.10이랑 다르게 statsbomb은 지 좃대로 이상치 제거 했다고 까는거임? ㅋㅋㅋ 대체 너 누구편임?


5. "엄밀한 정의로는 min max 정규화(정규화는 실제로 안했음)가 아니라고 위에 설명을 써놨는데 못알아쳐듣네; data cleansing이 존재하는데, raw data analysis를 진짜 잘못알고있나본데 data analysis이후 cleansing, validation과정이 있냐 없냐에 따라 해당 raw data가 가지고 있는 진짜 의미나 pattern을 읽을 수 있냐 없냐가 달려있음. 니 말대로 naive한 min max scaling은 outlier에 영향을 많이 받아서 raw data에 존재하는 bias나 outlier를 제대로 제거하지 못한다. 이게 오히려 나는 불공정이라고 생각하는데? raw data에 가깝다고(preprocessing or postprocessing을 1~2과정 정도만 거침) 다 좋은게 아니라니까? ㅋㅋ"
==> min max 정규화 한거 맞고, 안했다는 설명 없음. 대체 어디에 정규화가 아니라는 설명이 있음?

data cleansing ==> 아는 단어 씨부리기 또나오는거 같은데
datat cleansing은 걍 데이터 정제 작업으로  자료로 쓰기전에 오염된 데이터나 이상치 있는지 확인하는 작업이라고 보면됨. 
데 statsbomb은 데이터 원천이 어딘지도 안밝히고 있고,
110.10은 gol.gg 데이터를 쓰고 있어서 아주 정직하고 정확하고 오염되지 않은 데이터를 쓰고있음 ㅋㅋㅋㅋ

raw data analysis를 진짜 잘못알고 있나본데 ==> raw data analysis를 왜함? 
영어로 쓰면 있어보임? 전청조냐?  애초에 stat그래프를 그리는데 데이터 수치만 있음되는걸
분석을 왜함? 분석해서 뭐가 달라짐? 
solokill이 한명은 5번이고 한명은 3번이면 그걸 분석을 어떻게 한다는거임? 
솔로킬의 원인이라도 파악하게? ㅋㅋㅋㅋㅋㅋㅋ 존나 웃긴놈이네 ㅋㅋ

data analysis이후 cleansing, validation과정이 있냐 없냐에 따라 해당 raw data가 가지고 있는 진짜 의미나 pattern을 읽을 수 있냐 없냐가 달려있음.  ==> 데이터 검증은 statsbomb이 안하고 있다니깐 
110.10은 gol.gg데이터 그대로 쓰는데 뭘 검증하고 정제하라는거야 자꾸 ㅋㅋㅋㅋ 
그리고 시각화 그래프는 데이터 수치를 표현해서 비교하고자 하는 목적이지
raw data의 패턴을 왜 찾아? 데이터를 기반으로 뭘 예측이라도 하게? 마케팅에 사용하게? ㅋㅋㅋㅋ


6. "한 번 더 정리해서 설명해주자면,
내가 첨부해준 이미지 상 차트가 min max 사이에서 만들어진 차트는 "맞다". 근데 저게 110.10이 한 min max scaling이랑 같냐고 물어보면 그건 "아니다". 전혀 다른 methodology고 DA도 어느정도 들어가 있어 나름 납득 가능한 min max값 설정이라는 단계가 존재하기 때문에 그냥 멍청하게 아몰랑 그냥 다 넣어로 만들어진 차트랑은 근본부터가 다르다는 의미임. 내가 진짜 얼마나 머저리로 보였으면 내가 친절하게 나한테 불리한 증거를 굳이 링크까지 남겨가면서 너한테 줬다고 보여진거냐? ㅋㅋ"
전혀다른 methodology ==> ? 걍 min max 정규화인데 뭐가다름?

DA ==> 이게 뭐임 data analysis의 약자임? 
statsbomb도 슈팅, 패싱, 논페널티골  이런 스탯을 그대로 가져온건데 어디에 DA가 있다는거임? ㅋㅋㅋ

납득가능한 min max 값 설정이라는 단계 ==> statsbomb에 그런게 있음? 
무슨기준으로 모든 데이터의 상하한을 5%로 짜치기 한건지에대한 설명 1도없음. 
그걸 심지어 지도 언급했음. 근데 갑자기 납득가능하대 ㅋㅋㅋㅋ



[결론]
걍 whitefang은 병신새끼임.
지가 가져온게 min max 정규화인지도 모르고 가져왔고
나한테 박제당하니깐 갑자기 애매하게 변명아닌 변명 씨부리면서 min max는 맞는데 정규화는 아니고 어쩌고~~
전청조 화법으로 데이터 분석 관련 영어 단어만 나열하는 수준
참고로 저 단어들 데이터분석전문가나 빅데이터 관련 기초 자격증만 공부해도 다 알 수 있는거임 ㅋㅋㅋ
대체 저새끼 링크 어디에 그래프에 대한 설명이 있는지 원문좀 긁어와봐라 ㅋㅋㅋ

Lv55 브라이어

모바일 게시판 하단버튼

댓글

새로고침
새로고침

모바일 게시판 하단버튼

지금 뜨는 인벤

더보기+

모바일 게시판 리스트

모바일 게시판 하단버튼

글쓰기

모바일 게시판 페이징

최근 HOT한 콘텐츠

  • LoL
  • 게임
  • IT
  • 유머
  • 연예