새벽 3시, 모니터링 알림이 울렸습니다.
payment-service 응답 없음. 5분째 헬스체크 실패 중.
서버에 접속했더니 프로세스는 살아있습니다. 포트도 열려 있습니다. 그런데 요청은 전부 타임아웃이 납니다.
원인을 찾으려면 로그를 봐야 합니다. systemd가 수집한 저널부터, /var/log 파일, 그리고 에러 패턴 분석까지 — 이 Lab은 실제 장애 대응 순서 그대로 진행됩니다.
마지막에는 이런 일이 재발하지 않도록 로그 로테이션까지 설정합니다.