![이종호 과학기술정보통신부 장관이 6일 정부서울청사 브리핑실에서 SK C&C 판교데이터센터 화재 및 카카오, 네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 있다 [사진 : 연합뉴스]](https://cdn.digitaltoday.co.kr/news/photo/202212/466181_435677_513.jpg)
[디지털투데이 백연식 기자] 지난 10월 SK C&C 판교 데이터센터 화재로 카카오 서비스가 전국 단위 장애를 일으킨 가운데, 데이터센터 화재로 인한 대국민 피해는 결국 SK C&C와 카카오 양사의 미흡한 시스템 체계가 만든 것으로 재확인됐다. SK C&C의 데이터센터 BMS·UPS가 제대로 작동하지 않았고, 카카오가 이중화를 제대로 이뤄내지 못한 것이다. 특히 카카오의 경우 카카오 인증이나 카카오톡 등 대부분 핵심 기능이 판교 데이터센터에 집중돼있다는 점도 복구에 상당한 시간이 걸렸다. 정부는 SK C&C, 카카오, 네이버 3사에게 1개월 이내 주요 사고원인에 대한 개선조치와 향후 계획을 수립해 보고하도록 한다는 계획이다.
6일 과학기술정보통신부는 방송통신위원회, 소방청과 함께 지난 10월15일 SK C&C 판교 데이터센터 화재 및 카카오 · 네이버 등 부가통신서비스 장애에 대한 조사 결과를 정부 합동브리핑으로 발표했다. 화재가 난 SK C&C 판교 데이터센터의 경우 미흡한 설계 및 대처가 분명히 있었던 것으로 정부 조사 결과 확인됐다.
SK C&C 판교 데이터센터는 배터리 온도 등을 모니터링하는 시스템(BMS)를 갖추고 있었지만 제대로 운영되지 않았다. 발화로 인해 온도가 올라가면 BMS 센서가 달라진 온도를 인지하고 징후를 보여야 한다. 하지만 BMS가 화재 발생 직전까지 아무 이상 징후를 보이지 않았다. BMS가 화재를 감지하지 못하고 결국 지하 3층 내 배터리실에서 발화가 시작됐다.
원칙대로라면 리튬이온 배터리에서 불이나 데이터센터 전원 공급이 끊어지더라도, 무정전전원장치(UPS)가 작동될 경우 서버 가동을 이어갈 수 있다. 그런데 판교 데이터센터에선 화재 열기 등으로 UPS 작동이 중지됐고, 일부 전원 공급마저 중단됐다. 리튬이온 배터리를 일부 UPS와 물리적으로 완벽히 분리하지 않았기 때문이다. 또한 배터리 상단에 전력선이 지나가도록 두면서, 이 전력선마저 화재로 손상됐다. 서버로 이어진 이 전력선 마저 불로 훼손되면서 카카오 서비스 ‘블랙아웃’ 사태가 진행된 것이다. 화재 대비 매뉴얼은 있었지만 살수 상황, 발화 구역 등 실제 수준까지 반영한 세부 대응계획 및 모의훈련이 없었던 것으로 파악됐다.
과기정통부 등 정부 부처는 SK C&C에 대한 시정조치 내용으로 크게 ▲데이터센터 화재 예방·탐지 ▲데이터센터 전력공급 생존성 확보에 대해 주문했다. 구체적으론 제대로 작동하지 않은 BMS 관련, BMS 계측정보 등 관리 강화 방안과 현재 BMS 외 다양한 화재감지 시스템 구축 방안을 수립하라고 지시했다. 리튬이온 배터리 화재 시 필요한 소화설비 등도 구축해야 한다.
화재를 키운 요인인 UPS 작동 중지와 전력선 위치에 대해서도 정부는 시정을 요구했다. 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내 위치한 전력선을 재배치해 구조적 안정성을 확보하라는 내용이다. 화재 등 재난 발생 구역 전력을 개별 차단할 수 있는 방안을 마련하고 현실적인 재난대응 시나리오 개발·수립, 모의훈련 실시 후 결과를 보고하기로 했다.
카카오의 복구 지연 원인은 불완전한 이중화 및 판교에 핵심 기능을 밀집시켰기 때문으로 조사됐다. 판교 데이터센터 화재로 카카오 주요 서비스는 5일이 넘어가는 최대 127시간 33분간 장애를 겪었다.

카카오는 서비스 기능을 ▲앱 ▲서비스 플랫폼 ▲운영 및 관리도구 ▲데이터베이스 ▲인프라 설비 레이어 등 5개 레이어로 구분한다. 여기에 판교 데이터센터와 기타 센터 간 ‘동작(Active)-대기(Stanby)’ 체계로 이중화를 했다. 즉 ‘동작’ 서버 작동 불능시 대기중이던 ‘대기’ 서버를 가동하는 방식이다.
판교 데이터센터 동작 서버 작동이 이뤄지지 않았을 때 서비스 장애 복구가 지연된 건, 이 ‘대기’ 시스템이 제대로 동작하지 않았기 때문이다. 대기 서버를 동작서버로 전환하기 위한 권한관리 기능 ‘운영 및 관리 도구’가 판교 데이터센터 내에서만 이중화돼있을 뿐, 다른 데이터센터엔 이중화돼있지 않았던 것이 원인이다.
특히 카카오 인증이나 카카오톡 등 대부분 핵심 기능이 판교 데이터센터에 집중돼있었다는 점이 피해를 키웠다. 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의했지만, 각 단계별 체계화 및 자동화가 미흡하단 점도 지적됐다. 일부 서버, 네트워크 등 오류에 대비한 재난대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시 불능이 되는 대형 재난상황에 대해선 대비를 전혀하지 않았다.
과기정통부 등은 카카오에 ▲서비스 다중화 ▲재난대비 훈련 ▲이용자 고지 및 피해구제 등 크게 3가지 방향으로 시정을 요구했다.
먼저 정부는 카카오 서비스 장애 복구 지연 핵심 원인인 ‘운영 및 관리 도구’를 데이터 간 ‘동작(Active)-동작’ 등 높은 수준으로 다중화해야 할 것을 주문했다. 카카오인증·카카오톡 등 핵심 기능에 대해선 우선순위, 중요도 등을 고려해 현재보다 높은 수준 분산 및 다중화를 적용할 수 있는 방안을 수립해야 하는 것이다.
재난대비 훈련도 강화해야 한다. SK C&C와 마찬가지로 카카오 또한 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련계획을 수립하고 모의 훈련을 실시, 보고해야 하는 것이다. 정부는 서비스별 복구목표 설정과 상시 대응조직 구성, 장애 시나리오별 복구방안도 수립하도록 지시했다. 장애 탐지·전파·복구 전 단계 자동화가 미흡했던 점은 전 단계 복구체계를 재점검해 자동화 기능 요소를 발굴하기로 했다.
또한 카카오는 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축해야 한다. 이번 사고 발생시 카카오는 긴급공지를 페이스북이나 트위터 등 사회관계망서비스(SNS)로 알려 비판 받은 바 있다. 국민 피해 구제를 위한 보상 계획도 수립해야 한다.
SK C&C 판교 데이터센터 화재로 네이버에서도 일부 서비스 장애가 나타났지만 네이버는 데이터센터 간 이중화 조치로 서비스 중단은 없었다. 타 데이터센터로 서비스 전환 과정에서 블로그 등 일부 기능에 오류가 발생했지만 기능 대부분은 약 20분~12시간 내 정상화됐다. 이에 과기정통부는 네이버에 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안등을 재점검하고 모의훈련을 실시해 보고할 것만 요구했다.
이날 브리핑에서 이종호 과기정통부 장관은 “행정지도의 경우 강제력이 없다. 하지만 전례 없는 서비스 사고이기 때문에 그런 측면에서 사업자들도 충분히 인지하고 있는 것으로 알고 있다”며 “국민적인 관심사가 높은 사고였기 때문에 사업자도 성심성의껏 답변을 하지 않을까하는 기대를 하고 있다”고 말했다.

