ACTIVE INCIDENT
00:00 elapsed
LABLAB-INFRA-OPS-11-ROLLBACKSEV-2
나쁜 배포 즉시 롤백 — "먼저 되돌리고, 원인은 나중에"
ELAPSED
00:00
PHASE
0 / 4
SLA
45분
⚙️ Infra-Ops
← 목록
INCIDENT RESPONSE
0 / 5 단계 완료
📚 PREREQUISITES
Theoryinfra-ops/rollback-strategy
Theoryinfra-ops/deployment-structure
TRACK
INFRA-OPS
SLA
45분
SEV
SEV-2
PHASES
3단계
ENV
local
INCOMING TICKET
긴급: "방금 배포 후 에러율이 2%→40%로 치솟고 주문이 안 됩니다. 원인은 모르겠고 사용자가 빠져나가고 있어요."
YOUR ROLE
배포를 담당한 인프라/릴리스 엔지니어인 당신이
IMPACT IF UNRESOLVED
신규 배포가 주문 실패를 유발 중. 1분마다 매출·신뢰 손실. 원인 분석을 기다릴 시간이 없음.
🚨INCIDENT BRIEF
방금 v1.42를 배포했습니다. 5분 뒤 모니터링에서 에러율이 2%→40%로 치솟습니다. 주문 API가 500을 뱉습니다.
팀에서 묻습니다. "원인이 뭐죠?"
하지만 지금은 분석할 때가 아닙니다. 사용자가 주문을 못 하고 있고, 매출이 분 단위로 샙니다.
장애 대응의 철칙: "먼저 되돌리고(restore service), 원인은 나중에(root cause)".
배포가 범인인지 시간 상관으로 빠르게 확정하고, 안전하게 직전 버전으로 롤백하고, 회복을 확인합니다.
⏱ 45분📊 중급🔧 3단계#rollback#deploy#release#blue-green
MISSION
1
배포-장애 시간 상관으로 범인 특정
에러율 급증 시각과 배포 시각이 일치하는지 확인해 "이번 배포가 원인"을 빠르게 확정한다
2
직전 버전으로 안전하게 롤백
검증된 직전 릴리스로 되돌리고 서비스를 재기동해 트래픽을 안정 버전으로 돌린다
3
회복 확인 + 포스트모템 준비
롤백 후 에러율이 정상으로 돌아왔는지 확인하고, 나중에 분석할 증거(나쁜 릴리스 아티팩트·로그)를 보존한다
📌 선수 지식
ℹ️ 실습 환경
환경: local
필요 도구: git, systemctl, curl, ln
🔒
실습 실행은 Pro 플랜 전용입니다
인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.
Pro로 업그레이드 →
>_ LAB TERMINAL↔ 너비 조절
NOTES