서비스가 점점 커지면서 서버가 버벅거린다는 리포트가 들어오기 시작했습니다.
"서버가 갑자기 느려졌는데 원인을 모르겠어요. CPU가 많이 쓰이는 건지, 메모리가 부족한 건지도 몰라요."
top이나 free -h 명령으로 현재 상태는 볼 수 있지만, "어제 밤 3시에 CPU가 치솟았다"는 것은 알 수 없습니다. 히스토리 없이는 장애 원인 분석이 불가능합니다.
Prometheus + Grafana는 현재 인프라 모니터링의 사실상 표준입니다.
- Node Exporter: 서버에서 CPU/메모리/디스크/네트워크 메트릭을 수집해 HTTP 엔드포인트로 노출
- Prometheus: 주기적으로 메트릭을 scrape(수집)해 시계열 DB에 저장
- Grafana: Prometheus에 쿼리를 날려 대시보드로 시각화
이 세 컴포넌트가 조합되면 서버의 모든 리소스를 시간 순서로 추적할 수 있습니다. 이 Lab에서는 이 스택을 처음부터 직접 구축합니다.