기사 검색

검색어를 입력하세요
스카이 테크 블로그
[AWS] 토토 핫 조치

[AWS] 토토 핫 조치

토토 핫 조치(재해 복구)에 대한 설명입니다 AWS를 활용한 토토 핫 대응의 기본 패턴 4가지(백업 복원 방식, 파일럿 라이트 방식, 웜 스탠바이 방식, 멀티 사이트 방식)를 소개하고 각각의 장단점을 설명합니다

소개

토토 핫 조치(재해 복구)란 무엇입니까?

천재지변, 무단 접속 등으로 인한 시스템 장애의 위험이 증가하고 있는 지금,

여기에서는 AWS의 토토 핫 대응의 기본 패턴을 소개합니다

토토 핫 실습 제안

출처:Amazon 웹 서비스 블로그 조직의 비즈니스 연속성이 필요한 미션 크리티컬 시스템을 위한 토토 핫 전략

1 백업 복원 방법

요약

데이터를 정기적으로 백업하고 장애 발생 시 백업에서 다른 지역으로 복원하는 방법

혜택

  • 저렴한 비용
    백업만 유지되므로 상시 가동 인프라가 필요하지 않습니다
    주요 비용은 저장 및 데이터 전송입니다
  • 덜 복잡함
    전체 시스템을 중복해서 실행할 필요가 없기 때문에 시스템 작동이 간단합니다
  • 간편한 관리
    단 하나의 활성 시스템으로 백업 관리가 용이합니다

단점

  • 복구에는 시간이 걸립니다
    오류 발생 후 백업에서 복원하고 시스템을 재구축하는 데 시간이 걸립니다
  • 더 긴 가동 중지 시간
    장애가 발생한 시점부터 복원이 완료될 때까지 시스템이 중지되므로 다운타임이 길어질 가능성이 높습니다
  • 데이터 손실 위험
    백업 시기에 따라 이전 데이터가 손실될 수 있습니다(RPO가 길어집니다)

2 ​파일럿 라이트 토토 핫

요약

주요 지역에서는 인프라를 운영하고 있고, 그 외 지역에서는 최소한의 인프라(특히 데이터베이스 및 중요 서비스)만 준비하는 토토 핫입니다

혜택

  • 저비용
    다양한 지역에서 최소한의 리소스를 실행하므로 다중 사이트 또는 웜 대기보다 비용이 저렴합니다
  • 복구가 상대적으로 빠릅니다
    중요한 시스템과 데이터베이스는 항상 준비되어 있으므로 백업 복원보다 복구가 더 빠를 수 있습니다
  • 다운타임이 어느 정도 감소함
    백업 복원에 비해 필요한 리소스를 즉시 확장할 수 있어 복구에 필요한 시간이 단축됩니다

단점

  • 일부 수동 작업 필요
    리소스는 전체 용량에 도달하려면 수동으로 확장해야 하며, 완전히 자동화되지 않은 경우 일부 운영 작업이 필요합니다
  • 짧지만 가동 중지 시간
    조종등 토토 핫을 사용하더라도 장애 발생 시 리소스를 확장할 수 있을 때까지 짧은 기간의 가동 중지 시간이 있습니다
  • 운영 복잡성
    장애 조치 중에 리소스를 적절하게 확장하고 배포하려면 작업이 필요합니다

3 ​따뜻한 대기 토토 핫

요약

메인 리전에서는 정상적인 작업이 수행되고, 일부 리소스는 프로덕션 환경과 유사한 상태로 다른 리전에서 작동되는 방법입니다

혜택

  • 빠른 회복
    신호등 토토 핫보다 이미 더 많은 리소스가 실행되고 있으므로 리소스를 빠르게 확장하고 전환할 수 있습니다 회복 시간은 더 짧아질 것입니다
  • 짧은 가동 중지 시간
    리소스가 항상 실행되므로 가동 중지 시간이 줄어듭니다
  • 비용과 가용성의 균형
    전체 다중 사이트 방법만큼 비용이 많이 들지는 않지만 백업 복원이나 파일럿 라이트보다 복구가 더 빠르며 가용성을 보장하기가 더 쉽습니다

단점

  • 중간 비용
    일부 리소스가 활성화되어 있으므로 파일럿 라이트 또는 백업 복원보다 비용이 더 많이 듭니다 하지만 완전 상시 대기(멀티사이트)보다는 가격이 저렴합니다
  • 운영 복잡성
    대기 자원을 적절하게 유지하고 장애 발생 시 원활한 확장이 필요하므로 어느 정도의 운영 관리가 필요합니다

4 ​다중 사이트(상시 대기) 토토 핫

요약

시스템을 주요 지역과 다른 지역에 모두 배치하고, 한 지역에 장애가 발생하면 즉시 다른 지역으로 전환하는 방법입니다

혜택

  • 최소 가동 중지 시간
    한 지역이 다운되면 다운타임이 거의 없이 즉시 다른 지역으로 전환할 수 있습니다(빠른 장애 조치)
  • 즉시 복구
    시스템은 두 지역 모두에서 항상 작동되므로 서비스 가용성이 높고 복구 시간이 최소화됩니다
  • 즉각적인 데이터 동기화
    데이터는 일반적으로 실시간으로 복제되므로 데이터 손실 위험이 거의 없습니다(낮은 RPO)

단점

  • 높은 비용
    두 지역 모두에서 인프라를 실행하면 비용이 두 배로 발생합니다 특히, 컴퓨팅 리소스 및 데이터 복제 비용이 증가합니다
  • 복잡한 작업
    두 지역 모두에서 시스템이 실행되면 시스템 관리가 복잡해지며 인프라, 네트워크 설정 및 데이터베이스 동기화에 세심한 주의가 필요합니다
  • 복잡한 장애 조치 구성
    자동 장애 조치를 설정하거나 데이터 일관성을 유지하는 것이 어려울 수 있습니다

요약

각 패턴의 비교 요약입니다

다운타임, 위험 감소, 복구 속도에 비례하여 비용과 운영 복잡성이 증가하므로 장애 발생 시 영향 정도에 적합한 패턴을 채택하는 것이 중요합니다

이해해 주셔서 감사합니다


\공유해주세요! /
  • X
  • 페이스북
  • 라인

입사 후 기술을 향상시키고 싶은 젊은 사람이든, 다양한 분야에서 자신의 경험을 활용하고 싶은 베테랑이든, 우리는 각 개인의 경험에 맞는 중견 채용을 제공합니다

스카이코퍼레이션의 소프트웨어 개발, 제품, 채용에 관한 문의사항은 아래 링크를 확인해주세요
문의하기