ACTIVE INCIDENT
00:00 elapsed
LABLAB-INFRA-OPS-09-LOG-AGGREGATIONSEV-2
흩어진 로그 추적 — 다중 서버 로그 집계와 상관 분석
ELAPSED
00:00
PHASE
0 / 4
SLA
45분
⚙️ Infra-Ops← 목록
INCIDENT RESPONSE
0 / 5 단계 완료
📚 PREREQUISITES
Lab
linux-log-analysisTheory
infra-ops/log-aggregationTheory
infra-ops/log-analysisTRACK
INFRA-OPS
SLA
45분
SEV
SEV-2
PHASES
3단계
ENV
local
INCOMING TICKET
“장애 보고: "오후 2시 10분경 결제 일부 실패. 어느 서버 로그를 봐야 하는지 모르겠어요. 서버가 6대인데요."”
YOUR ROLE
인프라 운영 엔지니어인 당신이
IMPACT IF UNRESOLVED
로그가 6대 서버에 흩어져 있어 원인 추적에 30분+ 소요. 장애 시간이 길어지고 재발 분석도 불가.
🚨INCIDENT BRIEF
"오후 2시 10분쯤 결제가 일부 실패했대요. 로그 좀 봐주세요."
서버는 6대(LB 1, 웹 2, WAS 2, DB 1). 각 서버에 ssh로 들어가 tail을 치기 시작합니다.
그런데 서버마다 시간이 미묘하게 다르고, 같은 결제 요청이 어느 줄과 어느 줄인지 이어지질 않습니다.
로그 집계의 진짜 문제는 "로그가 없다"가 아니라 "흩어져 있고, 시간이 안 맞고, 요청을 못 잇는다"입니다.
시간을 맞추고, 시간창을 좁히고, 요청 ID로 여러 서버 로그를 하나의 타임라인으로 꿰어 원인을 특정합니다.
⏱ 45분📊 중급🔧 3단계#log#aggregation#journalctl#grep
MISSION
1
시간 기준 맞추기 — 타임존·NTP 확인
여러 서버 로그를 비교하기 전에, 시간이 같은 기준(UTC/동기화)인지부터 확인한다
2
시간창으로 좁히기 — 사건 전후 로그만 추출
"2시 10분 ±몇 분" 구간의 로그만 각 서버에서 뽑아 노이즈를 제거한다
3
요청 ID로 여러 서버 로그를 하나의 타임라인으로
trace/request ID로 LB→웹→WAS→DB에 걸친 한 요청의 흐름을 이어 붙여 실패 지점을 특정한다
📌 선수 지식
ℹ️ 실습 환경
환경: local
필요 도구: journalctl, grep, awk, sort, date
🔒
실습 실행은 Pro 플랜 전용입니다
인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.
Pro로 업그레이드 →>_ LAB TERMINAL↔ 너비 조절
NOTES