소개
토토 핫 조치(재해 복구)란 무엇입니까?
천재지변, 무단 접속 등으로 인한 시스템 장애의 위험이 증가하고 있는 지금,
여기에서는 AWS의 토토 핫 대응의 기본 패턴을 소개합니다
토토 핫 실습 제안
출처:Amazon 웹 서비스 블로그 조직의 비즈니스 연속성이 필요한 미션 크리티컬 시스템을 위한 토토 핫 전략

1 백업 복원 방법
요약
데이터를 정기적으로 백업하고 장애 발생 시 백업에서 다른 지역으로 복원하는 방법
혜택
- 저렴한 비용백업만 유지되므로 상시 가동 인프라가 필요하지 않습니다주요 비용은 저장 및 데이터 전송입니다
- 덜 복잡함전체 시스템을 중복해서 실행할 필요가 없기 때문에 시스템 작동이 간단합니다
- 간편한 관리단 하나의 활성 시스템으로 백업 관리가 용이합니다
단점
- 복구에는 시간이 걸립니다오류 발생 후 백업에서 복원하고 시스템을 재구축하는 데 시간이 걸립니다
- 더 긴 가동 중지 시간장애가 발생한 시점부터 복원이 완료될 때까지 시스템이 중지되므로 다운타임이 길어질 가능성이 높습니다
- 데이터 손실 위험백업 시기에 따라 이전 데이터가 손실될 수 있습니다(RPO가 길어집니다)
2 파일럿 라이트 토토 핫
요약
주요 지역에서는 인프라를 운영하고 있고, 그 외 지역에서는 최소한의 인프라(특히 데이터베이스 및 중요 서비스)만 준비하는 토토 핫입니다
혜택
- 저비용다양한 지역에서 최소한의 리소스를 실행하므로 다중 사이트 또는 웜 대기보다 비용이 저렴합니다
- 복구가 상대적으로 빠릅니다중요한 시스템과 데이터베이스는 항상 준비되어 있으므로 백업 복원보다 복구가 더 빠를 수 있습니다
- 다운타임이 어느 정도 감소함백업 복원에 비해 필요한 리소스를 즉시 확장할 수 있어 복구에 필요한 시간이 단축됩니다
단점
- 일부 수동 작업 필요리소스는 전체 용량에 도달하려면 수동으로 확장해야 하며, 완전히 자동화되지 않은 경우 일부 운영 작업이 필요합니다
- 짧지만 가동 중지 시간조종등 토토 핫을 사용하더라도 장애 발생 시 리소스를 확장할 수 있을 때까지 짧은 기간의 가동 중지 시간이 있습니다
- 운영 복잡성장애 조치 중에 리소스를 적절하게 확장하고 배포하려면 작업이 필요합니다
3 따뜻한 대기 토토 핫
요약
메인 리전에서는 정상적인 작업이 수행되고, 일부 리소스는 프로덕션 환경과 유사한 상태로 다른 리전에서 작동되는 방법입니다
혜택
- 빠른 회복신호등 토토 핫보다 이미 더 많은 리소스가 실행되고 있으므로 리소스를 빠르게 확장하고 전환할 수 있습니다 회복 시간은 더 짧아질 것입니다
- 짧은 가동 중지 시간리소스가 항상 실행되므로 가동 중지 시간이 줄어듭니다
- 비용과 가용성의 균형전체 다중 사이트 방법만큼 비용이 많이 들지는 않지만 백업 복원이나 파일럿 라이트보다 복구가 더 빠르며 가용성을 보장하기가 더 쉽습니다
단점
- 중간 비용일부 리소스가 활성화되어 있으므로 파일럿 라이트 또는 백업 복원보다 비용이 더 많이 듭니다 하지만 완전 상시 대기(멀티사이트)보다는 가격이 저렴합니다
- 운영 복잡성대기 자원을 적절하게 유지하고 장애 발생 시 원활한 확장이 필요하므로 어느 정도의 운영 관리가 필요합니다
4 다중 사이트(상시 대기) 토토 핫
요약
시스템을 주요 지역과 다른 지역에 모두 배치하고, 한 지역에 장애가 발생하면 즉시 다른 지역으로 전환하는 방법입니다
혜택
- 최소 가동 중지 시간한 지역이 다운되면 다운타임이 거의 없이 즉시 다른 지역으로 전환할 수 있습니다(빠른 장애 조치)
- 즉시 복구시스템은 두 지역 모두에서 항상 작동되므로 서비스 가용성이 높고 복구 시간이 최소화됩니다
- 즉각적인 데이터 동기화데이터는 일반적으로 실시간으로 복제되므로 데이터 손실 위험이 거의 없습니다(낮은 RPO)
단점
- 높은 비용두 지역 모두에서 인프라를 실행하면 비용이 두 배로 발생합니다 특히, 컴퓨팅 리소스 및 데이터 복제 비용이 증가합니다
- 복잡한 작업두 지역 모두에서 시스템이 실행되면 시스템 관리가 복잡해지며 인프라, 네트워크 설정 및 데이터베이스 동기화에 세심한 주의가 필요합니다
- 복잡한 장애 조치 구성자동 장애 조치를 설정하거나 데이터 일관성을 유지하는 것이 어려울 수 있습니다
요약
각 패턴의 비교 요약입니다

다운타임, 위험 감소, 복구 속도에 비례하여 비용과 운영 복잡성이 증가하므로 장애 발생 시 영향 정도에 적합한 패턴을 채택하는 것이 중요합니다
이해해 주셔서 감사합니다

