사례 1: 2021년 10월 25일 11:16 ~ 12:45 전국 KT 인터넷 서비스 장애
원인은 라우팅 경로 오류입니다.
라우팅 경로 설정 오류는 여러 가지 원인으로 발생합니다.
- 네트워크 설정 문제: 라우팅 경로 설정 중 네트워크 설정이 잘못되어 있을 수 있습니다.
- 라우팅 테이블 오류: 라우팅 테이블에 잘못된 정보가 저장되어 있을 수 있습니다.
- 프로토콜 불일치: 사용하는 네트워크 프로토콜이 일치하지 않을 경우 오류가 발생할 수 있습니다.
- 하드웨어 문제: 네트워크 장비의 하드웨어 문제로 인해 라우팅 경로가 설정되지 않을 수 있습니다.
- 소프트웨어 버그: 네트워크 관리 소프트웨어에 버그가 있을 경우 라우팅 경로 설정에 문제가 발생할 수 있습니다
KT에서 발표한 사고 원인으로는 코드 단 한 단어의 입력을 빠트린 기초적인 실수였다고 합니다.
영향으로는 KT가 관리 운영하는 전국의 모든 통신망에 문제가 발생하였으며, 영향은 다음과 같습니다.
- 통신 장애: 전반적인 통신이 마비되어 인터넷과 유/무선 통화 및 경찰,소방서의 신고처리 시스템이 마비되었습니다.
- 교육 및 시험 장애: 온라인 수업이나 메신저 등이 마비되어 전국의 학교에서 수업 및 시험에 차질을 겪었습니다.
- 결제 및 거래 장애: 카드 결제 및 앱 간편결제 시스템이 정지되어 현금 결제만 가능하게 되는 피해를 겪었습니다.
대응 조치입니다.
당시의 사과문을 찾아와 보았습니다.
안녕하세요. KT 입니다.
통신장애로 고객 여러분께 불편을 끼쳐드려 죄송합니다.
금일 장애내역은 아래와 같습니다.
ㅇ 장애일시 : 2021년10월 25(월) 11:20~ 최대 12:45
(지역별로 복구시간은 차이가 있음)
ㅇ 대상지역 : 전국
ㅇ 장애관련 영향도 : 인터넷 서비스
장애로 인한 불편이 재발되지 않도록 더욱 노력하겠습니다.
사후 조치입니다.
[사과문]
어제(10월 25일) 전국적으로 발생한 인터넷 장애로 불편을 겪으신 고객 여러분께 진심으로 사과 드립니다. KT는 인터넷 장애 초기 트래픽 과부하가 발생하여 외부에서 유입된 디도스 공격으로 추정하였으나, 서비스 고도화를 위한 최신 설비 교체작업 중 발생한 네트워크 경로설정 오류가 원인인 것으로 확인하였고, 정부의 원인 조사에 적극적으로 협조하고 있습니다. KT CEO로서 KT를 믿고 서비스를 사용해 주시는 고객님들께 장애로 불편을 드린 점에 대해 책임을 통감하며, 재발방지를 위해 최선을 다하겠습니다. 심층적인 점검과 함께 프로세스를 보완하고, 아울러 이번 사고를 유무선 네트워크 통신망 전반을 면밀히 살피는 계기로 삼겠습니다. 조속하게 보상방안 또한 마련하겠습니다. 다시 한번 불편을 겪으신 고객 여러분께 깊은 사과의 말씀 드립니다. KT 대표이사 사장 구현모 배상 |
지난 10월 25일 발생한 인터넷 등 장애로 불편을 겪으신 고객 여러분께 진심으로 사과 드립니다.
서비스 장애를 겪으신 고객님들께 보상을 시행하고자 합니다.
○ 대상 : 무선, 인터넷, 유선전화(인터넷전화 전체 / 일반전화 일부), 기업상품
- 무선 서비스에는 태블릿PC와 스마트워치 등 추가단말(세컨드 디바이스) 서비스 포함
- 알뜰폰과 재판매인터넷 고객 포함 (각 사업자 고객센터에서 확인 가능하도록 준비 예정)
- 소상공인 고객은 10일치에 해당하는 이용료 감면 (인터넷 및 인터넷전화/일부 일반 전화 한정)
사례 2: 2022년 10월 15일 11:30 ~ 2022년 10월 20일 23:00 카카오 서비스 장애
2022년 10월 15일 15시 30분경, 경기도 성남시 삼평동에 위치한 SK주식회사C&C 판교캠퍼스 A동 지하 3층 전기실에서 화재가 발생했고 이 과정에서 서버 작동에 필요한 전원 공급이 끊겨 카카오의 서비스를 비롯한 해당 IDC에 입주한 모든 서비스들이 다운되어버린 사건입니다.
원인으로는 전기실 내 정전으로 인한 서버 셧다운을 방지하기 위해 구축한 무정전 전원 장치(UPS) 설비에서 화재가 발생한 것으로 분석되었습니다.
그러나,2차 감식 결과에 따르면 당초 사건의 원인으로 알려져있던 UPS실이 아닌 별도의 전기실의 배터리와 선반에서 스파크가 발생하며 화재가 발생했다고 합니다.
영향으로는 카카오톡 비즈 채널, 예약, 선물하기(상품권 · 금액권) 등 카카오 서비스를 활용 중이었던 매장은 카카오를 통한 예약, 상담, 결제 등 기본적인 영업조차 불가능한 상황이 발생하였습니다.
또한 카카오T 택시기사, 대리기사, 퀵서비스 기사는 콜을 받지 못하여 원활한 근무가 불가능해 수익 창출의 차질이
발생하였습니다.
대응 조치로는
- 10월 19일, 박성하 대표이사가 사과문을 통해 "유사한 사고가 재발되지 않도록 모든 역량을 집중하겠다"고 밝혔다. 박 대표는 "화재 발생 이후 거듭 이어진 철야 작업을 통해 오늘 새벽 5시에 전력 케이블을 개통하면서 안정적인 전력 공급 체계 복구를 완료했다"고 전하였습니다.
-
10월 21일, SK C&C와 카카오 간에 데이터센터 화재 발생 통보 및 인지 시점을 두고 대립 중인 가운데, SK C&C는 "15일 오후 3시 19분 화재 발생 후 4분만인 3시 23분 판교 데이터센터 현장에 있는 카카오를 포함한 고객사 직원들에게 화재를 알리며 대피시켰다"며 데이터센터 담당자 당일 통화기록 화면을 공개하였습니다.
사후 조치입니다.
2024년 1월 안산 한양대 카카오 데이터센터'가 가동을 시작하여 타 데이터센터 의존으로 인한 취약점이 어느 정도 해결이 되었다고 합니다.
사례 1: 2021년 뉴질랜드 통신장애 사건
원인으로는 지진으로 인한 통신 인프라 피해입니다.
영향입니다.
- 인터넷 서비스 중단: 전국적으로 인터넷 서비스가 중단되었습니다.
- 전화 서비스 중단: 전화 서비스도 큰 영향을 받았습니다.
- 경제적 영향: 통신 장애로 인해 많은 기업들이 일상적인 업무를 수행할 수 없었습니다.
대응 조치입니다.
- 빠른 복구: 통신사들은 가능한 빨리 통신 인프라를 복구하기 위해 노력했습니다.
- 대체 시스템 사용: 일부 지역에서는 대체 시스템을 사용하여 통신을 유지하려고 했습니다.
사후조치입니다.
- 인프라 강화: 이 사건 이후, 뉴질랜드는 통신 인프라를 강화하기 위해 데이터센터를 옮기는 등 다양한 프로젝트를 시작했습니다.
- 지진 예방 계획: 향후 지진 발생 시 더 빠르게 대응할 수 있도록 지진 예방 계획을 수립했습니다.
사례 2: 2021년 12월 북미 서버 통신 장애 사건
AWS를 사용하는 여러 플렛폼에서 장애가 일어난 사건입니다.
원인은 서버 과부하였습니다.
영향으로는 트위치, 디스코드, 넷플릭스, 리그 오브 레전드, 포켓몬 통신 서버, 에이펙스 레전드 등 아마존의 Amazon Web Services를 사용하는 애플리케이션의 기능이 정지하여 이용자들의 불편을 야기하였습니다.
아래는 각 지역별 서버에서의 대응 조치입니다.
AWS 인터넷 연결 문제 (북부 캘리포니아)
- [7:52 AM PST] US-WEST-1 지역의 인터넷 연결 문제를 조사하고 있습니다.
- [8:01 AM PST] US-WEST-1 지역의 인터넷 연결 문제의 원인을 파악하고 복구 작업을 진행하고 있습니다. 최근 몇 분 동안 인터넷 연결이 일부 개선된 것을 확인했지만, 완전한 복구를 위해 계속 작업 중입니다.
- [8:10 AM PST] US-WEST-1 지역의 인터넷 연결 문제를 해결했습니다. 이 이벤트로 인해 해당 지역 내의 연결은 영향을 받지 않았습니다. 문제가 해결되었으며 서비스가 정상적으로 운영되고 있습니다.
AWS 인터넷 연결 문제 (오레곤)
- [7:43 AM PST] US-WEST-2 지역의 인터넷 연결 문제를 조사하고 있습니다.
- [8:01 AM PST] US-WEST-2 지역의 인터넷 연결 문제의 원인을 파악하고 복구 작업을 진행하고 있습니다. 최근 몇 분 동안 인터넷 연결이 일부 개선된 것을 확인했지만, 완전한 복구를 위해 계속 작업 중입니다.
- [8:14 AM PST] US-WEST-2 지역의 인터넷 연결 문제를 해결했습니다. 이 이벤트로 인해 해당 지역 내의 연결은 영향을 받지 않았습니다. 문제가 해결되었으며 서비스가 정상적으로 운영되고 있습니다.
사후 조치
장애가 해결된 후, AWS는 장애의 원인을 조사하고 해당 문제를 방지하기 위해 시스템을 개선하였습니다. 또한, 사용자들에게 정확한 정보를 제공하고 장애 발생 시 대응 방안을 개선하기 위해 피드백을 수집하였습니다