[ITSM] 인시던트 관리 — 멈춘 서비스를 가장 빨리 정상으로

🚨INCIDENT ALERT

HIGH

금요일 오후 5시 40분, "결제가 안 됩니다"라는 전화가 빗발칩니다.

C 운영자는 곧장 결제 서버 로그를 뒤지기 시작합니다. "원인부터 찾아야 제대로 고치지." 30분이 지나도 원인은 안 보이고, 그사이 고객 이탈과 항의는 쌓입니다. 6시 30분, 결국 서버를 재시작하니 복구됩니다. 보고는 "원인 분석 중".

D 운영자는 전화를 받자마자 티켓을 엽니다. 영향(전 고객 결제 불가)과 긴급도(매출 직결, 지금 멈춤)를 보고 P1로 올리고, 우선 결제 노드를 재시작해 5시 50분에 복구합니다. 그리고 "왜 5시 40분에 동시에 죽었는가"는 문제(Problem)로 따로 등록합니다. 티켓에는 증상·영향·조치·복구시각이 남습니다.

둘 다 결국 재시작으로 복구했습니다. 차이는 순서와 기록입니다. C는 '원인'을 먼저 쫓다 복구가 50분 늦었고, 남긴 게 없습니다. D는 '복구'를 먼저 하고 '원인'을 따로 떼어 추적했으며, 다음 사람이 읽을 기록을 남겼습니다. 이 모듈은 D의 방식 — 인시던트 관리를 다룹니다.

이번 챕터에서 배울 것

1인시던트를 "정상 서비스의 계획되지 않은 중단·품질 저하"로 정의하고, 인시던트 관리의 목표가 "빠른 정상화"임을 설명할 수 있다
2탐지·인지부터 기록·분류·진단·복구·종결까지 인시던트 라이프사이클의 각 단계가 무엇을 하는지 설명할 수 있다
3왜 임시조치(workaround)로라도 복구를 먼저 하고, 근본원인 규명은 문제관리로 분리하는지 그 이유를 말할 수 있다
4인시던트 모델(반복 유형의 표준 처리 절차)이 왜 필요한지, 인시던트와 문제가 어떻게 다른지 구분할 수 있다
5인시던트 티켓에 무엇을 남겨야 다음 사람이 재현·판단할 수 있는지, 필수 필드를 채워 작성할 수 있다

인시던트란 무엇이고, 무엇을 목표로 하는가

💡개념

인시던트 = 정상 서비스의 계획되지 않은 중단·저하

운영의 하루에 들어오는 신고 중 가장 급한 종류가 인시던트입니다. 정의는 단순합니다 — 정상적으로 동작하던 서비스가, 계획되지 않게 중단되거나 품질이 떨어진 상태.

여기서 두 단어가 핵심입니다.

"정상이던 게" — 원래 되던 것이 안 되는 것입니다. 원래 없던 기능을 새로 해달라는 것은 서비스 요청이지 인시던트가 아닙니다.
"계획되지 않게" — 예고된 점검(maintenance)으로 멈춘 건 인시던트가 아닙니다. 예상 밖으로 멈춘 것이 인시던트입니다.

중요한 건 '완전 중단'만 인시던트가 아니라는 점입니다. 품질 저하(degradation) 도 인시던트입니다.

상태	인시던트인가	이유
결제가 아예 안 됨	예	서비스 완전 중단
결제는 되는데 평소 1초 → 지금 15초	예	약속한 성능 저하(품질 저하)
예고된 새벽 점검으로 멈춤	아니오	계획된 중단
"해외 카드 결제도 되게 해주세요"	아니오	원래 없던 기능 요청(서비스 요청)
같은 장애가 이번 달 세 번째	인시던트(각 건) + 문제(반복 원인)	개별 복구는 인시던트, 반복 원인은 문제

💡개념

목표는 '빠른 정상화' — 원인 규명이 아니다

인시던트 관리에서 가장 자주 오해받는 지점이 여기입니다. 인시던트 관리의 목표는 합의된 서비스 수준 안에서 서비스를 가능한 한 빨리 정상으로 되돌리는 것입니다. 근본 원인을 밝히는 게 아닙니다.

왜일까요? 사용자 입장에서 생각하면 분명합니다. 결제가 멈춘 고객은 "왜 멈췄는지 알아냈습니다"라는 보고가 아니라 "지금 결제가 다시 됩니다" 를 원합니다. 멈춰 있는 1분마다 매출과 신뢰가 깎입니다.

그래서 인시던트 관리는 임시조치(workaround) 를 적극적으로 씁니다.

죽은 노드를 재시작한다(왜 죽었는지는 나중에).
방금 배포한 변경을 롤백한다.
장애 난 경로를 우회해 트래픽을 우회 라우팅한다.

이것들은 "제대로 된 수리"가 아니라 "일단 불 끄기"입니다. 그래도 맞습니다. 빠른 복구가 먼저고, "왜 불이 났는가"는 복구 뒤에 문제관리(Problem Management) 로 따로 추적합니다.

질문	누가 답하나	언제
"지금 어떻게 다시 돌리지?"	인시던트 관리	즉시, 최우선
"왜 멈췄고 어떻게 영구히 막지?"	문제 관리	복구 뒤, 별도

이 분리를 못 하면 시나리오의 C처럼 됩니다 — 원인을 쫓느라 복구가 늦어지는 것. 복구와 원인 규명을 순서로 분리하는 것이 인시던트 관리의 핵심 감각입니다.

인시던트 라이프사이클 — 들어와서 끝나기까지

💡개념

탐지 → 기록 → 분류 → 진단 → 복구 → 종결

인시던트는 들어와서 끝날 때까지 정해진 단계를 밟습니다. 각 단계가 무엇을 하는지 알면, 지금 내가 어디에 있고 다음에 뭘 해야 할지 길을 잃지 않습니다.

단계	하는 일	빠지면 생기는 일
1. 탐지·인지(Detection)	사용자 신고 또는 모니터링 알람으로 인지	늦게 알수록 영향 확대
2. 기록(Logging)	티켓을 열어 발생시각·증상·영향을 남김	패턴·이력이 안 쌓임, 재현 불가
3. 분류(Categorization)	종류·영향서비스 분류, 영향×긴급도로 우선순위	급한 불과 사소한 일이 뒤섞임
4. 조사·진단(Diagnosis)	증상으로 범위 좁히기, 알려진 우회책 확인	헤매며 시간 낭비
5. 해결·복구(Resolution)	임시조치 또는 수정으로 서비스 정상화	(목표 미달성)
6. 종결(Closure)	사용자 확인 후 조치·원인단서 기록하고 닫음	다시 열리거나 지식이 휘발

여기에 종결 뒤 사후 검토(post-incident review) 가 붙기도 합니다. 큰 장애(P1 등)는 "무엇이 잘 됐고 무엇이 늦었나"를 돌아보고, 반복·원인 미상이면 문제관리로 넘깁니다.

순서를 외우려 하지 말고, "지금 복구됐나? 아니라면 어느 단계에 막혀 있나?" 를 자문하는 도구로 쓰세요. 막힌 단계가 보이면 거기서 에스컬레이션할지 판단합니다.

탐지·인지부터 기록·분류·진단·복구·종결까지 인시던트 6단계 흐름과, 복구는 인시던트 관리가 원인 규명은 문제관리로 분리되는 구조를 보여주는 다이어그램

그림: 인시던트 라이프사이클 6단계 — 목표는 빠른 정상화이고, 원인 규명은 문제관리로 분리한다.

💡개념

인시던트 모델 — 반복 유형은 미리 절차를 정해 둔다

같은 유형의 인시던트가 자꾸 들어오면, 매번 즉흥적으로 푸는 건 낭비입니다. 인시던트 모델(Incident Model) 은 "이런 유형이 오면 이렇게 처리한다"를 미리 적어둔 표준 처리 절차입니다.

예를 들어 "디스크 풀(disk full)로 서비스가 느려진다"가 자주 온다면, 다음을 모델로 만들어 둡니다.

처리 단계: 임시 로그 압축·정리 → 사용률 확인 → 임계 알람 점검 → 사용자 확인 후 종결
담당: 1차 운영, 30분 내 미해소 시 인프라팀 에스컬레이션
우선순위 기준: 영향 서비스 매출 등급에 따라 P2~P3

이렇게 해두면 에이스가 아니어도 누가 받든 같은 품질·속도로 처리됩니다. 인시던트 모델은 장애를 없애주는 게 아니라, 처리의 품질이 사람에 휘둘리지 않게 만드는 장치입니다. 자주 보는 유형부터 하나씩 모델로 만드는 것이 운영 성숙의 시작입니다.

한 가지 구분을 분명히 해 둡니다 — 인시던트 vs 문제.

구분	인시던트(Incident)	문제(Problem)
질문	"지금 어떻게 복구하지?"	"왜 자꾸 나지? 어떻게 영구히 막지?"
목표	빠른 정상화	근본 원인 제거·재발 방지
속도/깊이	빠르게	깊게
예시	"재시작해 살렸다"	"메모리 누수가 원인, 코드 패치 필요"

이 트랙에서 문제관리는 뒤 모듈에서 깊게 다룹니다. 여기서는 "복구는 인시던트, 재발 방지는 문제" 라는 경계만 분명히 잡고 갑니다.

인시던트를 다룰 때 — 무엇을 먼저 할 것인가

서비스가 지금 멈췄고 임시조치(재시작·롤백)로 살릴 수 있다먼저 복구한다원인 규명보다 빠른 정상화 우선

전사·핵심서비스가 멈춰 영향·긴급도가 크다P1로 올리고 즉시 에스컬레이션혼자 끌어안지 말고 알린다

복구는 됐는데 원인 미상이거나 같은 장애가 반복된다인시던트는 종결, 문제(Problem)로 별도 등록복구와 재발방지를 분리

자주 들어오는 익숙한 유형이다인시던트 모델(표준 절차)대로 처리즉흥 대신 정해진 단계로

영향 1명·업무는 가능한 사소한 저하낮은 우선순위로 처리하되 기록은 남긴다사소해도 티켓은 연다

예고된 점검으로 멈춘 것이다인시던트 아님(계획된 중단)변경·점검창으로 관리

직접 해보기 — 분류와 티켓 작성

1들어온 신고를 인시던트로 분류하고 우선순위 매기기

아래 4건 중 인시던트인 것을 고르고, 인시던트라면 영향 × 긴급도로 대략의 우선순위(P1~P4)를 매겨 보세요. 정답은 ObserveBlock에 있습니다.

TEXT

A. "전 고객이 결제가 안 됩니다." (평일 낮, 매출 직결)
B. "지난주부터 같은 장애가 세 번째예요." (반복, 원인 미상)
C. "해외 카드로도 결제되게 해주세요." (신규 기능)
D. "제 화면만 보고서 다운로드가 평소보다 느려요." (1명, 업무는 됨)

생각의 축: 영향(몇 명/어떤 서비스인가) 과 긴급도(업무가 지금 얼마나 멈췄나) 두 가지입니다. 전사·핵심·지금 멈춤일수록 P1에 가깝습니다.

분류 + 우선순위(P1~P4)

2복구한 인시던트의 티켓 채우기 — 무엇을 남길 것인가

위 A건을 재시작으로 복구했다고 합시다. "처리 완료" 한 줄이 아니라, 다음 사람이 재현·판단할 수 있게 아래 필드를 채워 보세요. 무엇을 적어야 할지 감을 잡는 연습입니다.

TEXT

- 티켓ID:        (예: INC-2026-0420)
- 발생시각:      (언제 멈췄나)
- 영향서비스:    (어떤 서비스가 / 누구에게)
- 증상:          (무엇이 어떻게 안 됐나 — "결제 요청이 타임아웃")
- 우선순위:      (영향×긴급도 → P?)
- 담당:          (누가 대응했나)
- 조치:          (무엇을 했나 — "결제 노드 재시작, 트래픽 정상 확인")
- 상태:          (해결·복구 / 종결)
- 종결시각:      (언제 정상 확인했나)
- 비고:          (원인 미상 → 문제로 등록 여부)

채워 보고 나서, "이 티켓만 보고 다음 사람이 같은 상황을 재현할 수 있는가?"를 스스로 물어보세요.

티켓 필드 채우기

🔍실행 후 확인할 것

A = 인시던트, P1 (영향: 전 고객 / 긴급도: 매출 지금 멈춤). 임시조치로 즉시 복구 + 에스컬레이션 대상
B = 인시던트(각 건)이지만 핵심은 문제(Problem). 개별 건은 복구하되 반복·원인 미상이므로 문제로 등록해 근본원인 추적
C = 인시던트 아님 — 원래 없던 기능을 새로 해달라는 서비스 요청. 표준 절차/변경으로 처리
D = 인시던트(품질 저하)이지만 P4 (영향: 1명 / 긴급도: 업무는 가능). 우선순위는 낮게, 그래도 티켓은 연다
티켓 작성의 핵심: "내가 일했다"의 증명이 아니라 "다음 사람이 재현·판단할 자산". 증상·영향·우선순위·조치·원인단서가 없으면 다음에 또 처음부터 헤맨다
복구됐어도 원인 미상·반복이면 비고에 "문제로 등록"을 남긴다 — 복구(인시던트)와 재발방지(문제)를 분리하는 흔적

산출물 예시 — 인시던트 티켓

아래는 위 연습을 실제 티켓으로 채운 모습입니다. 현업에서 인시던트 한 건은 대략 이런 필드로 기록됩니다. 핵심은 이 표 하나만 보고도 무슨 일이 있었는지, 무엇을 했는지, 다음에 무엇을 봐야 하는지가 드러나는 것입니다.

필드	내용
티켓ID	INC-2026-0420
발생시각	2026-04-20 14:05
영향서비스	결제 서비스 (전 고객 결제 불가)
증상	결제 요청이 모두 타임아웃, 주문 완료 0건
우선순위	P1 (영향: 전사·매출직결 / 긴급도: 지금 중단)
담당	1차 운영 D, 인프라팀 에스컬레이션
조치	결제 노드 재시작(임시조치) → 트래픽·결제 성공 정상 확인
상태	해결·복구 → (사용자 확인 후) 종결
종결시각	2026-04-20 14:18
비고	14:05 동시 다운 원인 미상 → PRB-2026-0073 문제로 등록

이 티켓은 "처리 완료" 한 줄과 무엇이 다른가요? 종료시각으로 복구 시간(13분)을 측정할 수 있고(SLA 점검), 비고의 문제 등록 흔적으로 재발 방지가 이어지며, 증상·조치가 남아 다음 사람이 같은 상황을 재현할 수 있습니다. 티켓은 보고가 아니라 운영의 데이터입니다.

복구 시간은 어떻게 재는가 — 상태별 SLA 타이머

위 티켓에서 "복구 13분"은 단순히 끝시각에서 시작시각을 뺀 값이 아닙니다. 인시던트가 처리되는 동안 티켓은 여러 상태를 오가는데, SLA 시계는 모든 상태에서 똑같이 흐르지 않습니다. 사용자 회신을 기다리거나 외부 공급자의 처리를 기다리는 시간처럼 우리 통제 밖에 있는 구간은 타이머를 멈추는 것이 일반적입니다. 그래야 팀이 손쓸 수 없는 대기시간 때문에 SLA를 부당하게 위반 처리당하지 않습니다.

핵심은 어떤 상태에서 시계를 멈출지가 미리 합의되고 문서화되어 있어야 한다는 점입니다. "대기로 전환"이 임의의 시간벌기 수단이 되면(진행할 수 있는데도 대기로 돌려 시계를 멈추는 식) SLA 숫자는 좋아 보여도 신뢰는 무너집니다. 정지 사유와 전환 시각은 티켓에 남겨 감사 가능하게 둡니다.

현장에서 자주 보는 함정

증상: 두 가지 정반대 함정이 같이 나타납니다.

복구보다 원인을 먼저 쫓는다. "제대로 고치려면 원인부터"라며 로그를 파는 사이, 서비스는 계속 멈춰 있고 영향이 커집니다(시나리오의 C).
반대로 복구만 하고 끝낸다. 재시작으로 살리고 "처리 완료"만 적고 종결. 원인은 안 남고, 같은 장애가 또 나며, 패턴이 안 보여 문제관리로 못 넘어갑니다.

원인: 인시던트 관리의 두 원칙이 안 잡혀 있어서입니다. (1) 복구가 원인 규명보다 먼저라는 순서, (2) 복구와 재발방지는 분리해 기록한다는 원칙.

해결 방향:

멈춘 서비스는 임시조치로라도 먼저 살린다. 원인은 그다음.
복구 후 증상·영향·조치·복구시각을 티켓에 남긴다. "처리 완료"는 금지.
원인 미상·반복이면 문제(Problem)로 등록해 인시던트 종결과 분리한다.
자주 오는 유형은 인시던트 모델로 만들어 다음엔 헤매지 않게 한다.

빠른 복구와 충실한 기록은 상충하지 않습니다 — 복구를 먼저, 기록은 빠짐없이. 둘 다 하는 것이 인시던트 관리입니다.

💼

실무 맥락

현업 패턴

한국의 운영현장(SM 운영, 서비스데스크, 발주사·원청 IT 운영)에서 인시던트 관리는 곧 "장애가 났을 때 얼마나 빨리·일관되게·기록을 남기며 복구하느냐" 로 평가됩니다. 상용 ITSM 도구(ServiceNow, Jira Service Management, Remedy 등)에 인시던트 티켓을 열고, 우선순위(P1~P4)에 따라 정해진 대응시간(SLA) 안에 복구하며, P1 같은 큰 장애는 사후 검토와 보고서까지 남깁니다.

이런 자리에서 당신은 직접 서버를 만지기보다, "이 신고는 인시던트인가(요청·문제와 구분), 우선순위는 무엇이며, 누가 언제까지 어떤 절차로 복구하고, 복구 뒤 무엇을 문제로 넘기며, 그 결과를 어떻게 보고하는가" 를 통제합니다. 협력사 엔지니어가 실제 복구 작업을 하더라도, SLA·복구시간·기록 품질에 대한 책임은 운영 관리자에게 있습니다.

특히 한국 현장에서 자주 강조되는 두 가지가 있습니다. 하나는 티켓 기록의 충실성 — 감사·정산·SLA 점검의 근거가 되므로 "처리 완료" 한 줄은 곧 책임 공백이 됩니다. 다른 하나는 에스컬레이션 타이밍 — 혼자 끌어안다 복구가 늦으면 영향이 커지므로, 정해진 시간 안에 복구가 안 되면 상위·인프라팀으로 올리는 판단이 운영자의 핵심 역량입니다.

관련 모듈로 더 깊이:

우선순위와 에스컬레이션 — 인시던트를 P1~P4로 분류하고 제때 넘기는 두 축(우선순위·에스컬레이션)
문제 관리 — 복구 뒤 '무엇을 문제로 넘기는가', 반복 인시던트의 근본 원인 처리
서비스 데스크 — 인시던트가 가장 먼저 접수되는 단일 접점(SPOC)의 1차 대응

다음 모듈에서는 인시던트의 우선순위를 정하는 두 축 — 우선순위(영향도×긴급도)와 에스컬레이션의 기준·경로를 더 깊이 다룹니다.