ACTIVE INCIDENT
00:00 elapsed
LABLAB-CLOUD-10-CLOUD-DNS-FAILOVERSEV-2
GCP Cloud DNS — TTL·전파와 헬스체크 기반 장애조치
ELAPSED
00:00
PHASE
0 / 4
SLA
40분
☁️ GCP
← 목록
INCIDENT RESPONSE
0 / 5 단계 완료
📚 PREREQUISITES
Labgcp-vpc-firewall-setup
Theorycloud/cloud-dns-cdn
TRACK
CLOUD-GCP
SLA
40분
SEV
SEV-2
PHASES
3단계
ENV
local
INCOMING TICKET
운영 보고: "리전 장애 때 도메인이 죽은 리전을 계속 가리켜 서비스가 다운됐어요. 그리고 레코드 바꿔도 한참 옛 IP로 가요."
YOUR ROLE
클라우드 엔지니어인 당신이
IMPACT IF UNRESOLVED
DNS가 죽은 엔드포인트를 계속 가리켜 장애 지속. TTL 오해로 변경 전파가 느려 복구·전환이 지연.
🚨INCIDENT BRIEF
두 가지 문제가 겹쳤습니다. (1) 리전 장애 때 도메인이 죽은 리전 IP를 계속 가리켜 서비스가 다운됐습니다.
(2) 레코드를 새 IP로 바꿨는데 한참 동안 사용자들이 옛 IP로 갔습니다.
(2)는 TTL 때문입니다 — 리졸버·OS·브라우저가 레코드를 TTL 동안 캐시합니다.
(1)은 정적 A 레코드라 자동 우회가 없기 때문입니다 — 헬스체크 기반 라우팅이 없으면 DNS는 죽은 곳을 계속 줍니다.
TTL/전파를 이해해 안전하게 바꾸고, 헬스체크 기반 장애조치로 리전 장애에 자동 대응하게 만듭니다.
⏱ 40분📊 중급🔧 3단계#gcp#cloud-dns#ttl#failover
MISSION
1
TTL·전파 진단 — "왜 옛 IP로 가나"
현재 레코드의 TTL과 캐시 계층을 확인해 변경이 즉시 반영 안 되는 이유를 특정한다
2
레코드 안전 변경 + 전파 검증
TTL을 낮춘 뒤 레코드를 새 값으로 바꾸고, 권한 NS와 리졸버에서 전파를 확인한다
3
헬스체크 기반 장애조치 라우팅
정적 레코드 대신 헬스체크 기반 라우팅 정책(failover)으로 리전 장애 시 자동 우회를 구성한다
📌 선수 지식
ℹ️ 실습 환경
환경: local
필요 도구: gcloud, dig
🔒
실습 실행은 Pro 플랜 전용입니다
인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.
Pro로 업그레이드 →
>_ LAB TERMINAL↔ 너비 조절
NOTES