클라우드플레어 장애에 '롤이 멈췄다'...10월 AWS 악몽 떠올라

게임뉴스 | 강승진 기자 | 댓글: 4개 |
아마존웹서비스(AWS)의 대규모 장애로 게임, 온라인 서비스, 챗봇 등 수많은 앱이 멈췄던 10월. 불과 1개월만에 클라우드플레어(Cloudflare)의 네트워크 오류로 다시 한 번 대규모 온라인 서비스가 에러를 뿜어내고 있다.




클라우드플레어를 이용하는 사이트들은 18일 저녁 접속 불안과 통신이 끊어지는 상황이 이어졌다. 전세계적 장애에 라이엇 게임즈, 패스 오브 엑자일 등 게임 서비스를 비롯해 게임 플랫폼 itch.io, X(트위터), 챗GPT 등 다수의 온라인 서비스가 영향을 받았다.

클라우드플레어는 웹 애플리케이션 등의 CDN 역할을 통해 서버 파일을 캐싱, 페이지 로딩 속도를 줄이고 원 서버의 리소스 사용량을 줄인다. 또한, DDoS 공격이나 악성 트래픽을 실시간으로 감지하는 보안 강화 역할까지 한다. 웹 애플리케이션의 프론트 서비스로 웹사이트, 소프트웨어 서비스, API 서버, 게임 서버, 엣지 컴퓨팅 필요 업체 등 다양한 곳에 쓰인다.

이렇게 광범위한 분야, 다양한 업체에서 쓰이다보니 대형 장애에 수많은 서비스가 영향을 받고 있는 셈이다. 이에 클라우드플레어 측은 한국시각으로 오후 8시 40분 경 서비스 복구를 알렸고, 문제에 대해 계속 조사 중이라고 밝혔다. 장애는 서버 레벨의 500 오류 등 내부 서비스 저하로 확인됐으며 상세한 이유는 현재 상황에서 밝히지 않고 있다.

문제는 서비스를 이용하는 최종 소비자의 경우 이러한 오류에 마땅한 대책이 없다는 데 있다. 실제로 지난 10월 백엔드 구축으로 서비스의 성격은 클라우드플레어와 다르지만, 웹 서비스에 핵심 역할을 하는 AWS의 장애에 포트나이트, 로블록스, 배틀그라운드의 게임을 비롯해 슬랙, 퍼플렉시티, 디즈니 플러스 등 수많은 온라인 서비스가 멈춘 바 있다.

한편, 대형 온라인 서비스의 경우 기술적 복합성이 높아지면서 작은 문제 하나에도 연쇄적 오류를 일으키기 쉬워져간다. 이에 시장 경쟁 속에서 배포 속도를 우선하는 경향에 이 같은 장애는 향후 더 잦아질 거라는 추측이 우세하다.

이러한 우려에 클라우드플레어를 포함한 다중 CDN을 활용하거나 장애 발생 시 DNS 요청을 다른 서버로 우회시키는 방법 등이 예방책으로 꼽힌다. 다만, 서비스 요금이 중복 발생하고 설계 복잡성 역시 늘어나 이에 대한 도입은 더딘 편이다.

댓글

새로고침
새로고침

기사 목록

1 2 3 4 5
AD