ACTIVE INCIDENT
00:00 elapsed
LABLAB-LINUX-02-DISK-FULLSEV-2
디스크 꽉 참 — 장애 진단과 복구
ELAPSED
00:00
PHASE
0 / 5
SLA
35분
🐧 Linux
← 목록
INCIDENT RESPONSE
0 / 6 단계 완료
📚 PREREQUISITES
Theorylinux/file-system-basics
Theorylinux/process-management
TRACK
LINUX
SLA
35분
SEV
SEV-2
PHASES
4단계
ENV
local
INCOMING TICKET
장애 모니터링 경보: "[Warning] Disk Space Exhaustion detected on app-server-01 (Mount: /var, Usage: 100%)"
YOUR ROLE
인프라/SRE 엔지니어
IMPACT IF UNRESOLVED
애플리케이션 로그 쓰기 불가능으로 인한 API 서버 전체 500 내부 에러(Internal Server Error) 발생 및 신규 트랜잭션 전면 중단
🚨INCIDENT BRIEF
새벽 3시, 고요하던 Slack 채널에 장애 감지 봇의 모니터링 알림이 요란하게 울립니다.
"app-server-01의 /var 파티션 디스크 사용률이 100%에 도달했습니다!"
동시에 프론트엔드 로드밸런서로부터 API 서버 응답 지연 및 500 내부 오류율이 급증하고 있다는 경보가 연달아 들어옵니다.
운영 중인 API 서버가 새로운 로그나 임시 파일을 디스크에 기록하지 못해 프로세스가 먹통이 된 것입니다.
서버에 SSH로 로그인한 뒤, 어떤 파티션이 꽉 찼는지 신속히 분석하고 서비스를 중단(재시작)시키지 않으면서 디스크 공간을 안전하게 1분 안에 비워내어 서비스를 복구해야 합니다.
⏱ 35분📊 중급🔧 4단계#disk#df#du#lsof
MISSION
1
df/du로 사용량 파악 및 드릴다운 진단
df와 du 명령어를 조합하여 디스크 공간을 점유하고 있는 실제 문제 경로를 500MB 이하 범위로 특정한다
2
삭제된 파일이 점유 중인 공간 찾기 (lsof deleted 유령 파일)
rm으로 삭제되어 보이지 않지만, 프로세스가 잡고 있어 디스크 용량을 점유하는 deleted 상태의 파일 핸들을 찾아낸다
3
공간 확보 — 서비스 중단 없는 안전한 로그 비우기
실행 중인 애플리케이션 서비스를 재시작하지 않고 디스크 공간만 0으로 비워 즉각 디스크 장애를 복구한다
4
디스크 풀 장애 incident note 작성
장애의 타임라인, 근본 원인 및 logrotate를 포함한 재발 방지책을 5줄 내외의 격식 있는 Incident Note로 작성하여 기록한다
📌 선수 지식
• [이론] linux/file-system-basics
• [이론] linux/process-management
ℹ️ 실습 환경
환경: local
필요 도구: bash, df, du, lsof, find
검증 스크립트: /labs/disk-full-diagnosis/scripts/verify.sh
🔒
실습 실행은 Pro 플랜 전용입니다
인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.
Pro로 업그레이드 →
>_ LAB TERMINAL↔ 너비 조절
NOTES