새벽 3시, 고요하던 Slack 채널에 장애 감지 봇의 모니터링 알림이 요란하게 울립니다.
"app-server-01의 /var 파티션 디스크 사용률이 100%에 도달했습니다!"
동시에 프론트엔드 로드밸런서로부터 API 서버 응답 지연 및 500 내부 오류율이 급증하고 있다는 경보가 연달아 들어옵니다.
운영 중인 API 서버가 새로운 로그나 임시 파일을 디스크에 기록하지 못해 프로세스가 먹통이 된 것입니다.
서버에 SSH로 로그인한 뒤, 어떤 파티션이 꽉 찼는지 신속히 분석하고 서비스를 중단(재시작)시키지 않으면서 디스크 공간을 안전하게 1분 안에 비워내어 서비스를 복구해야 합니다.