흩어진 로그 추적 — 다중 서버 로그 집계와 상관 분석 — 실습 Lab

INCIDENT RESPONSE

0 / 5 단계 완료

📚 PREREQUISITES

Lablinux-log-analysis

Theoryinfra-ops/log-aggregation

Theoryinfra-ops/log-analysis

TRACK

INFRA-OPS

SLA

45분

SEV

SEV-2

PHASES

3단계

ENV

local

INCOMING TICKET

“장애 보고: "오후 2시 10분경 결제 일부 실패. 어느 서버 로그를 봐야 하는지 모르겠어요. 서버가 6대인데요."”

YOUR ROLE

인프라 운영 엔지니어인 당신이

IMPACT IF UNRESOLVED

로그가 6대 서버에 흩어져 있어 원인 추적에 30분+ 소요. 장애 시간이 길어지고 재발 분석도 불가.

🚨INCIDENT BRIEF

"오후 2시 10분쯤 결제가 일부 실패했대요. 로그 좀 봐주세요."

서버는 6대(LB 1, 웹 2, WAS 2, DB 1). 각 서버에 ssh로 들어가 tail을 치기 시작합니다.

그런데 서버마다 시간이 미묘하게 다르고, 같은 결제 요청이 어느 줄과 어느 줄인지 이어지질 않습니다.

로그 집계의 진짜 문제는 "로그가 없다"가 아니라 "흩어져 있고, 시간이 안 맞고, 요청을 못 잇는다"입니다.

시간을 맞추고, 시간창을 좁히고, 요청 ID로 여러 서버 로그를 하나의 타임라인으로 꿰어 원인을 특정합니다.

⏱ 45분📊 중급🔧 3단계#log#aggregation#journalctl#grep

MISSION

시간 기준 맞추기 — 타임존·NTP 확인

여러 서버 로그를 비교하기 전에, 시간이 같은 기준(UTC/동기화)인지부터 확인한다

시간창으로 좁히기 — 사건 전후 로그만 추출

"2시 10분 ±몇 분" 구간의 로그만 각 서버에서 뽑아 노이즈를 제거한다

요청 ID로 여러 서버 로그를 하나의 타임라인으로

trace/request ID로 LB→웹→WAS→DB에 걸친 한 요청의 흐름을 이어 붙여 실패 지점을 특정한다

📌 선수 지식

ℹ️ 실습 환경

환경: local

필요 도구: journalctl, grep, awk, sort, date

🔒

실습 실행은 Pro 플랜 전용입니다

인시던트 브리프와 학습 자료는 지금 바로 확인할 수 있습니다. 실제 실습 진행 및 터미널 사용은 Pro 플랜에서 가능합니다.

>_ LAB TERMINAL↔ 너비 조절

NOTES