디스크 꽉 참 — 장애 진단과 복구 — 실습 Lab

INCIDENT RESPONSE

0 / 6 단계 완료

📚 PREREQUISITES

TRACK

LINUX

SLA

35분

SEV

SEV-2

PHASES

4단계

ENV

local

INCOMING TICKET

“장애 모니터링 경보: "[Warning] Disk Space Exhaustion detected on app-server-01 (Mount: /var, Usage: 100%)"”

YOUR ROLE

인프라/SRE 엔지니어

IMPACT IF UNRESOLVED

애플리케이션 로그 쓰기 불가능으로 인한 API 서버 전체 500 내부 에러(Internal Server Error) 발생 및 신규 트랜잭션 전면 중단

🚨INCIDENT BRIEF

새벽 3시, 고요하던 Slack 채널에 장애 감지 봇의 모니터링 알림이 요란하게 울립니다.

"app-server-01의 /var 파티션 디스크 사용률이 100%에 도달했습니다!"

동시에 프론트엔드 로드밸런서로부터 API 서버 응답 지연 및 500 내부 오류율이 급증하고 있다는 경보가 연달아 들어옵니다.

운영 중인 API 서버가 새로운 로그나 임시 파일을 디스크에 기록하지 못해 프로세스가 먹통이 된 것입니다.

서버에 SSH로 로그인한 뒤, 어떤 파티션이 꽉 찼는지 신속히 분석하고 서비스를 중단(재시작)시키지 않으면서 디스크 공간을 안전하게 1분 안에 비워내어 서비스를 복구해야 합니다.

⏱ 35분📊 중급🔧 4단계#disk#df#du#lsof

MISSION

df/du로 사용량 파악 및 드릴다운 진단

df와 du 명령어를 조합하여 디스크 공간을 점유하고 있는 실제 문제 경로를 500MB 이하 범위로 특정한다

삭제된 파일이 점유 중인 공간 찾기 (lsof deleted 유령 파일)

rm으로 삭제되어 보이지 않지만, 프로세스가 잡고 있어 디스크 용량을 점유하는 deleted 상태의 파일 핸들을 찾아낸다

공간 확보 — 서비스 중단 없는 안전한 로그 비우기

실행 중인 애플리케이션 서비스를 재시작하지 않고 디스크 공간만 0으로 비워 즉각 디스크 장애를 복구한다

디스크 풀 장애 incident note 작성

장애의 타임라인, 근본 원인 및 logrotate를 포함한 재발 방지책을 5줄 내외의 격식 있는 Incident Note로 작성하여 기록한다

📌 선수 지식

ℹ️ 실습 환경

환경: local

필요 도구: bash, df, du, lsof, find

검증 스크립트: /labs/disk-full-diagnosis/scripts/verify.sh

🔒

실습 실행은 Pro 플랜 전용입니다

인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.

>_ LAB WORKSPACE

NOTES