오후 2시, 마케팅팀에서 프로모션 메일을 발송하고 30분 후부터 서비스 응답이 급격히 느려지기 시작했습니다.
모니터링 알림은 없었지만 사용자 민원이 쏟아지고 있고, CS팀에서 "서버 뭔가 이상한 것 같아요"라는 메시지가 날아왔습니다.
서버에 SSH로 접속해 보니 명령어 입력 후 응답이 수 초씩 지연됩니다.
CPU 100%인지 메모리 부족인지 아니면 다른 원인인지를 빠르게 구분하여 원인 프로세스를 특정해야 합니다.
top, ps, dmesg, sar를 순서대로 활용해 병목 지점을 찾아내고 적절한 조치 방향을 결정합니다.