카카오 화재 원인, 서버 이중화, DR/HA, 서버 가상화, RTO/RPO

2022. 10. 18. 00:42정보통신기술

728x90
반응형

[ 추측되는 원인 ]

- UPS(무정전전원장치) : 서버 가동중인 메인 전원에 혹시라도 문제가 생겼을 때를 대비한 보조전원으로써, 서버전원 장애 발생시 정상적인 서버 SHUT DOWN의 시간을 벌어주기 위한 역할.

- IDC의 UPS에 문제가 생겨 화재 발생된것으로 추측됨.

https://www.ajunews.com/view/20221016143627810

 

​[카카오 대란] 지하 3층 UPS 배터리에서 화재 추정...비상 대응 시스템이 비상 상황 불렀다 | 아

카카오가 입주한 SK㈜ C&C 판교 데이터센터 화재로 인해 데이터센터의 무중단 운영(Service Level Agreement 99.9%)의 필수로 여겨졌던 UPS(무정전 전원 장치) 배터리 랙에 대한 불신이 확산되고 있다. 빠르

www.ajunews.com

 

[ DR이 빠르게 이루어지기 힘든 이유 ]

더보기

HA와 DR의 개념차이

 

ㆍHA (High Availability)  : 고가용성 

- 서비스 가동을 위해서는 한대가 아닌 여러대 서버를 관리한다.

- 빠른 서비스응답을 위해 다중서버가 관리된다.

- 동일 기능의 서버가 여러대 존재

 

ㆍDR (Disaster Recovery) : 재해복구시스템

- 데이터센터 장애 발생시 다른 데이터센터로 대응한다.

- 장애 복구를 위해 다중서버가 관리된다.

- 전체 서버구조와 동일하게 다른 물리적공간에 존재

1. 서버 이중화 ?

카카오의 경우 판교 IDC의 32,000대 이상의 서버를 그대로 다른 IDC센터에 동일하게 구축했다고 가정한다면 빠르게 DR이 가능했을것. (다만 정확히 두배의 비용이 든다는 것은 말도안되게 큰 비용임.)

 

2. 서버 가상화 ?

대부분의 서비스가 IDC의 Private Cloud가 아닌 Public Cloud (AWS, Azure 등)로 운영되어 실시간 Backup 되었다면 빠르게 DR이 가능했을것. (실제로 어떤식으로 Repository가 구성되었을지는 알 수 없음.)

*실제로 데이터베이스는 백업이 잘 되었다고 함 : 데이터분산은 하였으나 서비스분산은 이뤄지지 않았을 가능성이 있음.

 

3. 평소보다 더한 트래픽 발생

장애발생시 평소보다 훨씬 많은양의 트래픽이 발생함. 바로 서비스를 다시 재기동할 수 있다고 해도 트래픽 관리가 어려워 더 힘들 수 있음.

 

4. DNS셋팅의 시간소요

장애 발생 시 DNS서버 (도메인작업)정보 갱신으로 다른 백업 데이터 센터로 경로 변경하는 과정도 시간이 걸린다.

 

5. 분산된 기능 구축의 필요성

MSA로써 특정 기능을 작성하고 여러 서비스에서 해당 기능을 쓸 수 있는데, 해당 기능 장애시 사용중인 모든 서비스에서 장애가 발생하게 된다.

(ex. 로그인기능은 수많은 서비스에서 활용되고있고 '로그인기능'자체는 IDC 특정 공간에 구축되어있을 수 있다. 해당 서버가 DOWN될 시에 로그인기능을 사용하는 모든 서비스에서 문제가 된다. 당연히 복구에도 시간이 오래걸린다.)

 

특정 기능이 한곳에서만 구축되어있지 않고, 기능을 활용하는 서비스마다 별도의 서버공간에 기능이 구축되어있었다면 서비스 장애는 훨씬 줄었을 것.

 

더보기

Cf) MSA : Micro Service Architecture ]

- 독립적으로 배포가 가능한 기능을 서비스단위로 구성한 프레임워크.

- 여러 서비스단위의 구현 및 뒷단의 내용이 분산되어 관리된다.

 

* 대비되는 개념 → Monolithic Architecture

    - 모듈별로 개발된 기능들을 통합해 하나의 서비스로 패키징하여 배포되는 형태.

    - 특징 : 부분장애가 서비스 전체의 장애로 이어질 수 있으며 서비스 변경이 어렵고 수정시 장애의 파악이 어렵다.

 

 

 

[ RTO :  Recovery Time  Objective ]

- 목표 복구 시간

- 보통 4시간내 복구 목표

 

[ RPO :  Recovery Point Objective ]

- 목표 복구 시점

- 특정 백업 데이터 버전(시점)으로 서비스 시점을 맞춰 서비스 정상화 시도

* 최악의 경우 : 백업데이터를 물리적으로 동일한 서버(센터)에 작성했을 경우. 그렇지 않더라도 특정 시점 이후 현재까지 소실된 데이터가 존재할 경우

 

 

 

 

 

 

 

 

 

 

카카오톡 화재의 이유

https://www.youtube.com/watch?v=4tBR7Q4bW3U

 

복구가 어려운 이유는 무엇인가?

https://www.youtube.com/watch?v=M6SaXtCtUbw

 

DR체계가 즉시 동작되지 않았던 이유가 무엇인가?

https://www.youtube.com/watch?v=B84Hk8Z050E 

728x90
반응형