# 장애보고서 (작성 예시 — 사내 그룹웨어 로그인 장애)

> 이 문서는 빈 양식(장애보고서-템플릿.md)을 실제 사례로 채운 **완성본 예시**입니다.
> 사실/추정 구분, 분 단위 타임라인, 담당·기한이 있는 재발방지에 주목하세요.

| 항목 | 내용 |
|---|---|
| 문서번호 | INC-2026-0618-02 |
| 장애 등급 | [v] 2등급(주요) |
| 작성자 / 부서 | 김운영 / 인프라운영팀 |
| 작성일시 | 2026-06-18 09:30 |
| 보고 대상 | 발주사 정보화팀장, 운영 관리자 |
| 보고 차수 | [v] 1차(즉시·요약) — 상세(2차)는 RCA 후 |

---

## 1. 개요 (요약)

2026-06-18 03:02부터 03:55까지 약 53분간 사내 그룹웨어 로그인이 전면 불가했습니다.
인증 서버 과부하(CPU 100%)가 직접 원인으로 확인되었고, 인증 서버 재기동으로 03:55 복구
완료했습니다. 무한 루프를 유발한 조건은 아직 미확인이며 근본원인은 RCA로 진행 중입니다.
출근 전 시간대로 실제 로그인 시도는 제한적이었습니다.

## 2. 발생 / 인지 / 복구 시각

| 구분 | 시각 | 비고 |
|---|---|---|
| 발생 시각 | 03:02 | 인증 서버 응답 중단 시작(로그 기준, 확정) |
| 인지 시각 | 03:25 | 자동 알람 없음 — 야간 사용자 문의로 당직자 인지 |
| 복구 시각 | 03:55 | 인증 서버 재기동(임시 복구) |

## 3. 영향 범위

- 영향 서비스: 사내 그룹웨어 로그인(인증 서버 의존 전 기능)
- 대상 범위: 전 직원 약 1,200명(전사)
- 실제 영향: 출근 전(03~04시) 시간대로 실제 로그인 시도는 소수 — 대상은 전사이나 체감 영향은 제한적

## 4. 타임라인

```text
03:02  발생   인증 서버 응답 중단, 로그인 전면 불가 (자동 알람 미발생)
03:25  인지   당직자가 사용자 문의로 인지
03:30  조치   인프라팀 에스컬레이션, 인증 서버 CPU 100% 확인
03:42  원인   인증 프로세스 무한 루프 흔적 로그에서 확인
03:48  조치   인증 서버 재기동 결정·실행
03:55  복구   로그인 정상화 확인, CPU 정상 범위 복귀

→ 미인지 시간(발생→인지): 23분   ← 자동 알람 부재(재발방지 1순위)
→ 복구 시간(인지→복구):   30분
→ 총 장애 지속:           53분
```

## 5. 조치 내역

- 03:25 당직자(박) — 사용자 문의 접수, 그룹웨어 접속 불가 재현 확인
- 03:30 당직자(박) — 인프라팀(이) 에스컬레이션
- 03:35 인프라팀(이) — 인증 서버 리소스 점검, CPU 100% 지속 확인
- 03:42 인프라팀(이) — 프로세스 로그 분석, 무한 루프 흔적 발견
- 03:48 인프라팀(이) — 인증 서버 재기동 실행

## 6. 복구

- 복구 시각: 03:55
- 복구 방법: 인증 서버 프로세스 재기동
- 복구 성격: [v] 임시 복구(증상 해소) — 무한 루프 유발 조건은 미제거
- 복구 검증: 표본 계정 3건 로그인 성공, CPU 5% 이하 안정, 5분간 재발 없음 확인

## 7. 근본원인

- **[사실]** 로그에서 인증 프로세스의 무한 루프 흔적 확인, 발생 시점 CPU 100% 관측
- **[추정]** 특정 요청 패턴이 루프를 유발한 것으로 추정되나, 유발 조건은 아직 미확인
- 근본원인 분석(RCA): [v] 진행 예정(완료 예정일: 2026-06-23)

## 8. 재발방지 대책

| 대책 | 담당 | 기한 | 검증 방법 |
|---|---|---|---|
| 인증 서버 CPU·응답시간 임계 알람 추가(CPU 80% 경고) | 인프라팀(이) | 2026-06-22 | 임계 초과 시 알림 발화 테스트 |
| 무한 루프 유발 조건 분석 후 코드 수정 | 개발팀(정) | RCA 완료 후(2026-06-30) | 재현 테스트로 루프 미발생 확인 |
| 인증 프로세스 헬스체크·자동 재기동 도입 검토 | 인프라팀(이) | 2026-06-27 | 강제 부하 시 자동 복구 동작 확인 |

## 9. 향후 계획

- RCA 완료 예정일: 2026-06-23
- 후속(상세) 보고 시점: 2026-06-24 (RCA 결과 포함 상세 보고서 제출)
- 임시 모니터링: 6/19부터 인증 서버 수동 모니터링 강화(주간 당직 1일 점검)

---

> 결재
>
> | 작성 | 검토(운영 관리자) | 승인(PM) |
> |---|---|---|
> | 김운영 / 06-18 09:30 | 이관리 / 06-18 10:10 | 박PM / 06-18 10:40 |
