ACTIVE INCIDENT
00:00 elapsed
LABLAB-INFRA-OPS-10-LB-FAILOVERSEV-2
로드밸런서 헬스체크·페일오버 — 죽은 노드로 트래픽이 가는 이유
ELAPSED
00:00
PHASE
0 / 4
SLA
45분
⚙️ Infra-Ops
← 목록
INCIDENT RESPONSE
0 / 5 단계 완료
📚 PREREQUISITES
Labnginx-502-diagnosis
Theoryinfra-ops/lb-vip
Theoryinfra-ops/web-was-structure
TRACK
INFRA-OPS
SLA
45분
SEV
SEV-2
PHASES
3단계
ENV
local
INCOMING TICKET
장애 알람: "웹 서버 2대 중 1대가 다운됐는데, 사용자 절반이 502를 받고 있어요. LB가 죽은 서버로 계속 보내는 것 같아요."
YOUR ROLE
인프라 운영 엔지니어인 당신이
IMPACT IF UNRESOLVED
한 노드 장애가 전체 사용자 절반의 장애로 번짐. LB의 핵심 가치(장애 격리)가 작동하지 않음.
🚨INCIDENT BRIEF
웹 서버 2대(web1, web2)를 nginx LB가 분산합니다. web2가 다운됐습니다.
정상이라면 LB가 web2를 빼고 web1로만 보내야 하는데, 사용자 절반이 502를 받습니다.
"LB는 죽은 서버를 알아서 빼는 거 아니었나요?"
LB가 죽은 노드를 빼려면 헬스체크가 그 죽음을 감지해야 합니다. 헬스체크가 없거나, 경로가 틀렸거나,
임계치가 너무 느슨하면 LB는 web2를 "살아있다"고 믿고 계속 트래픽을 보냅니다.
헬스체크를 진단·교정해 죽은 노드를 자동 제외하고, 복귀까지 확인합니다.
⏱ 45분📊 중급🔧 3단계#load-balancer#health-check#failover#nginx
MISSION
1
증상 재현과 현재 헬스체크 설정 진단
502가 "절반씩" 나는 패턴으로 LB가 죽은 노드를 못 빼고 있음을 확인하고, 현재 헬스체크 설정을 읽는다
2
헬스체크 교정 — 죽은 노드 자동 제외
백엔드 실패를 빠르게 감지해 풀에서 제외하도록 헬스체크(임계치/주기/경로)를 바로잡는다
3
복귀 검증 + 얕은 헬스체크의 함정
web2를 살린 뒤 풀에 자동 복귀하는지 확인하고, 헬스체크 경로가 실제 서비스 상태를 반영하는지 점검한다
📌 선수 지식
ℹ️ 실습 환경
환경: local
필요 도구: nginx, curl, ss, systemctl
🔒
실습 실행은 Pro 플랜 전용입니다
인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.
Pro로 업그레이드 →
>_ LAB TERMINAL↔ 너비 조절
NOTES