🚨INCIDENT ALERT

HIGH

모든 데이터를 RDBMS에 넣을 수도 있고, 모든 것을 NoSQL로 밀어붙일 수도 있습니다. 하지만 실제 서비스에서는 정합성, 조회 패턴, 확장 방식에 따라 선택이 달라집니다. DB 패러다임을 비교할 수 있어야 기술 선택이 유행이 아니라 근거가 됩니다.

이번 챕터에서 배울 것

파일로 데이터를 관리할 때 마주치는 실질적인 문제들을 살펴보고, DBMS가 그 문제들을 어떤 방식으로 해결하는지 이해합니다. 이 챕터는 이후 모든 데이터베이스 학습의 출발점이 됩니다.

1파일 저장 방식의 5가지 근본적 한계를 설명할 수 있다
2DBMS의 정의와 역할을 자신의 말로 설명할 수 있다
3관계형 데이터베이스가 등장한 역사적 배경을 이해할 수 있다
4ACID 트랜잭션 개념의 큰 그림을 파악할 수 있다
5데이터베이스가 해결하는 핵심 문제들을 식별할 수 있다

데이터베이스 패러다임 — 왜 파일 대신 DB를 쓰는가

신입 때 사수한테 "왜 파일에 저장하면 안 되냐"고 물어봤다가 "DB 쓰면 되잖아"라는 답만 돌아온 적이 있다. 그 말이 와닿지 않아서 사이드 프로젝트에 CSV 파일로 사용자 데이터를 저장했고, 배포 3주 만에 동시 가입 요청이 겹치면서 한쪽 데이터가 조용히 사라지는 상황을 겪었다. 에러 로그도 없었고, 어느 사용자의 데이터가 날아갔는지조차 알 수 없었다. 파일은 두 프로세스가 동시에 쓰면 나중에 저장한 쪽이 먼저 저장된 내용을 덮어쓴다 — 파일 시스템은 이걸 막아주지 않는다. 이 모듈은 그 경험이 왜 구조적으로 불가피한지, 그리고 DBMS가 어떤 메커니즘으로 그 문제를 시스템 수준에서 차단하는지를 설명한다. "DB 쓰면 되잖아"의 진짜 이유를 여기서 처음으로 제대로 이해하게 된다.

서비스 출시 3주차. 동시 접속자 50명이 넘어가던 날 밤, 주문 처리 도중 에러 로그가 쏟아집니다. 원인을 추적해보니 두 사용자가 동시에 같은 CSV 파일에 주문을 기록하다가 나중에 저장한 쪽이 먼저 저장된 내용을 덮어쓴 것입니다. 고객 A의 주문이 데이터베이스 어디에도 없습니다. 환불을 해야 할지, 주문을 다시 받아야 할지도 불분명합니다.

CSV 파일에 데이터를 저장하는 것은 처음엔 합리적인 선택처럼 보입니다. 코드가 단순하고, 파일을 열면 내용이 바로 보입니다. 하지만 사용자가 늘고 동시 요청이 증가하는 순간, 파일 기반 저장의 한계가 한꺼번에 드러납니다. 이 모듈에서는 그 한계가 구체적으로 어떤 상황에서 발생하는지, 그리고 데이터베이스 관리 시스템(DBMS)이 어떻게 그 문제들을 구조적으로 해결하는지 살펴봅니다.

💡개념

파일 저장의 한계 — 왜 엑셀과 CSV는 실무에 부족한가

팀의 데이터를 엑셀로 관리하다가 두 사람이 동시에 수정하면서 데이터가 꼬였습니다. 파일이 여러 개 복제되면서 어느 게 최신 버전인지도 모르게 됩니다. 수만 건에서 특정 조건을 검색하면 수 초씩 걸리고, 잘못된 데이터가 들어가도 막을 방법이 없습니다. DBMS가 왜 필요한지 이해하려면 파일 방식의 구체적인 한계를 먼저 알아야 합니다.

확대

파일 기반 데이터 관리의 현실

스타트업 초기 단계에서 개발자들은 종종 CSV 파일에 사용자를 추가하고, 이메일로 조회하는 단순한 코드를 작성합니다. 처음에는 잘 동작하는 것처럼 보입니다. 하지만 실제 서비스에 투입되는 순간 다음과 같은 문제들이 연쇄적으로 터져 나옵니다.

문제 1: 동시 쓰기 충돌 (Concurrent Write Conflict)

두 명의 사용자가 동시에 회원가입을 시도하면 프로세스 A와 B가 모두 파일을 읽은 뒤 각자 새 줄을 추가합니다. 나중에 저장하는 쪽이 먼저 저장된 내용을 덮어씁니다. 결과적으로 프로세스 A가 저장한 사용자 데이터는 사라집니다. 이를 Lost Update(유실된 갱신)라고 합니다. 파일 시스템에는 이를 막을 잠금(lock) 메커니즘이 없습니다.

문제 2: 데이터 중복과 불일치

파일 여러 개로 데이터를 관리하다 보면 같은 정보가 여러 곳에 저장됩니다. orders.csv에 고객 이름과 이메일이 주문마다 반복 저장되면, 고객 정보가 바뀌었을 때 모든 파일에서 해당 데이터를 찾아 수정해야 합니다. 하나라도 빠뜨리면 데이터 불일치가 발생합니다.

문제 3: 무결성 제약 없음

CSV 파일에는 나이에 음수가 들어가도, 이메일 형식이 틀려도, 필수 값이 비어 있어도 그냥 저장됩니다. 파일은 데이터의 형식이나 범위를 전혀 검증하지 않습니다.

문제 4: 검색 성능 저하

100만 개의 레코드가 있는 CSV에서 특정 사용자를 찾으려면 파일 전체를 처음부터 끝까지 읽어야 합니다. 이를 Full Scan이라고 하며, O(n) 시간 복잡도를 가집니다. 평균적으로 50만 번의 비교 연산이 필요합니다.

문제 5: 트랜잭션 없음

쇼핑몰 주문 처리에서 "재고 감소 → 주문 생성 → 결제 처리"는 하나의 단위로 성공하거나 실패해야 합니다. 파일 기반에서 두 번째 단계까지 성공한 뒤 시스템이 다운되면, 재고는 줄었고 주문은 생성됐는데 결제 기록은 없는 불일치 상태가 영구적으로 남게 됩니다.

파일 방식 vs DBMS 비교

다섯 가지 문제를 나란히 놓고 보면 파일과 DBMS의 차이가 한눈에 들어옵니다.

항목	파일(CSV/JSON)	DBMS
동시 쓰기	충돌·유실 위험	잠금(Lock) / MVCC로 제어
데이터 중복	구조적으로 발생	정규화로 방지
무결성 검증	없음	CHECK, NOT NULL, FK 제약
검색 성능	O(n) Full Scan	O(log n) 인덱스 탐색
트랜잭션	없음	ACID 보장
동시 접속	단일 프로세스 한정	다중 연결 지원

💡개념

DBMS가 해결하는 것들 — 동시성, 무결성, 영속성, 검색

두 사용자가 동시에 같은 상품의 마지막 재고를 구매했습니다. 재고가 음수가 됩니다. 서버 재시작 중에 결제 데이터가 유실됩니다. 잘못된 형식의 값이 그대로 저장됩니다. DBMS는 동시성 제어, 무결성 제약, 영속성 보장으로 이 문제들을 시스템 수준에서 차단합니다. 이 네 가지 역할을 이해해야 DB를 단순 저장소가 아닌 엔지니어링 도구로 쓸 수 있습니다.

확대

DBMS란 무엇인가

**DBMS(Database Management System)**는 데이터를 체계적으로 저장, 관리, 검색하기 위한 소프트웨어 시스템입니다. 1970년 Edgar F. Codd가 IBM에서 관계형 모델을 제안한 이후, 오늘날 PostgreSQL, MySQL, Oracle, SQL Server 등 수많은 RDBMS가 이 원칙을 구현하고 있습니다.

애플리케이션은 SQL 쿼리를 DBMS 엔진으로 보내고, 엔진은 내부적으로 쿼리 파싱 → 실행 계획 수립 → 트랜잭션 처리 → 잠금 관리 → 디스크 I/O 순서로 처리합니다. 개발자는 이 복잡한 과정을 SQL 한 줄로 요청하기만 하면 됩니다.

ACID: DBMS의 핵심 보장

DBMS가 파일과 근본적으로 다른 이유는 ACID 트랜잭션을 보장하기 때문입니다.

속성	영문	의미	예시
원자성	Atomicity	전부 성공 or 전부 실패	계좌 이체: 출금과 입금이 함께 성공하거나 함께 취소
일관성	Consistency	제약조건 항상 유지	잔액은 항상 0 이상
격리성	Isolation	동시 트랜잭션 간 간섭 없음	A가 이체 중일 때 B가 잘못된 잔액을 읽지 않음
내구성	Durability	커밋 후 데이터 영속 보장	전원이 꺼져도 커밋된 데이터는 유지

ACID의 각 속성은 트랜잭션 모듈에서 구체적인 메커니즘과 함께 자세히 다룹니다. 이 모듈에서는 "DBMS가 이 네 가지를 보장한다"는 사실만 기억하면 충분합니다.

동시성 제어: 잠금(Lock)과 MVCC

DBMS는 동시 접근을 제어하기 위해 잠금(Lock) 또는 **MVCC(Multi-Version Concurrency Control)**를 사용합니다. PostgreSQL은 MVCC를 기본으로 채택합니다. 아래 예시에서 두 UPDATE는 하나의 트랜잭션으로 묶여 원자적으로 처리됩니다. 중간에 실패하면 두 변경 모두 롤백됩니다.

SQL

BEGIN;
UPDATE accounts SET balance = balance - 100000 WHERE id = 1;
UPDATE accounts SET balance = balance + 100000 WHERE id = 2;
COMMIT;

OUTPUT

실행 완료 또는 조회 결과가 표시됩니다.

🔍실행 후 확인할 것

BEGIN 이후 COMMIT 전까지: 다른 세션에서 동일 accounts 테이블을 SELECT하면 변경 전 값이 보입니다(MVCC). 이것이 격리성(Isolation)이 동작하는 증거입니다. 같은 세션에서 SELECT하면 이미 변경된 값이 보입니다.
양쪽 UPDATE 성공 + COMMIT 후 잔액 합산 검증: SELECT sum(balance) FROM accounts;를 실행해 트랜잭션 전후 합산이 동일한지 확인합니다. 이체 전 200,000원 → 이체 후 200,000원이어야 합니다. 합산이 달라지면 UPDATE 중 하나가 롤백됐거나 제약조건이 실패한 것입니다.
ROLLBACK 시나리오 확인: 두 번째 UPDATE 전에 ROLLBACK을 실행하면 첫 번째 UPDATE도 취소됩니다. 이때 두 계좌 잔액이 모두 원래 값으로 돌아오는지 SELECT로 확인하세요. 원자성(Atomicity)이 동작하는 증거입니다.
인덱스 유무 성능 차이: EXPLAIN SELECT * FROM users WHERE email = 'kim@example.com'; 실행 후 Seq Scan이면 인덱스 없음, Index Scan이면 인덱스 있음입니다. 100만 건 테이블에서 Seq Scan은 수백 ms, Index Scan은 1ms 미만으로 차이가 납니다.

인덱스: 검색 성능 혁신

DBMS는 B-Tree 등의 자료구조를 사용한 인덱스를 제공합니다. 인덱스 없이는 100만 건 중 1건을 찾으려면 최대 100만 번 비교가 필요하지만, B-Tree 인덱스가 있으면 최대 20번 비교로 충분합니다(O(log n)). 아래에서 인덱스를 생성하면 이후 email 조건 검색에 Full Table Scan 대신 인덱스가 자동으로 사용됩니다.

SQL

CREATE INDEX idx_users_email ON users(email);

SELECT * FROM users WHERE email = 'kim@example.com';

무결성 제약: 잘못된 데이터 차단

테이블 정의에 제약조건을 걸면 DBMS가 INSERT/UPDATE 시점에 자동으로 검증합니다. 아래 테이블에 나이가 음수이거나 이메일이 중복된 행을 삽입하려 하면 DB가 즉시 오류를 반환합니다.

SQL

CREATE TABLE users (
    id        SERIAL PRIMARY KEY,
    name      VARCHAR(100) NOT NULL,
    email     VARCHAR(255) UNIQUE NOT NULL,
    age       INT CHECK (age >= 0 AND age <= 150),
    created_at TIMESTAMP DEFAULT NOW()
);

역사적 맥락: 관계형 DB의 탄생

1970년: Edgar F. Codd, IBM 연구소에서 관계형 모델 논문 발표
1974년: IBM System R 프로젝트 — SQL의 전신인 SEQUEL 개발
1979년: Oracle(Relational Software Inc.)이 최초 상용 RDBMS 출시
1986년: SQL이 ANSI 표준으로 채택
1989년: PostgreSQL의 전신 Postgres 프로젝트 시작 (UC Berkeley)
1995년: MySQL 첫 공개 릴리스
현재: 클라우드 네이티브 환경에서도 PostgreSQL, MySQL이 가장 널리 사용

파일 저장에서 DBMS로의 전환은 단순한 기술 선택이 아닙니다. 데이터를 진지하게 다루기 시작하는 순간, DBMS는 선택이 아닌 필수입니다.

두 팀원이 동시에 같은 CSV 파일을 열어 각자 행을 추가한 뒤 저장하면, 나중에 저장한 사람의 파일이 앞 사람의 변경 내용을 덮어씁니다. 파일 시스템에는 동시 쓰기를 중재하는 잠금 메커니즘이 없기 때문입니다.

해결책은 DBMS로 전환하는 것입니다. DBMS는 모든 쓰기 작업에 트랜잭션을 적용하고 내부적으로 잠금을 관리하므로, 동시에 수백 명이 쓰기 작업을 해도 데이터 유실이 발생하지 않습니다. 팀 공유 데이터가 10행을 넘어서는 순간부터 SQLite라도 도입할 것을 권장합니다.

💼

실무 맥락신입 개발자가 팀장에게 '왜 엑셀 대신 DB를 써야 하나요?'라는 질문을 받는 상황

현업 패턴

엑셀이나 CSV가 익숙한 팀원에게 DB 도입을 설득해야 할 때는 기술 용어보다 비즈니스 리스크로 접근하는 것이 효과적입니다. "두 명이 동시에 수정하면 데이터가 사라질 수 있다", "잘못된 값이 들어가도 막을 방법이 없다", "10만 건이 넘으면 검색하는 데 몇 분씩 걸린다"는 구체적인 시나리오를 제시하세요.

ACID의 세부 내용은 이 단계에서 설명하지 않아도 됩니다. "DB는 동시 수정 충돌을 자동으로 해결하고, 잘못된 데이터를 저장 전에 차단하며, 100만 건도 즉시 검색합니다"라는 세 문장만으로도 충분히 설득력이 있습니다.

심화 — DB를 써도 동시성은 공짜가 아니다

💡개념

심화: read-modify-write 함정 — DBMS를 써도 남는 lost update

파일과 달리 DBMS는 동시 쓰기를 안전하게 중재한다고 했습니다. 하지만 그게 '애플리케이션이 무엇을 하든 알아서 막아 준다'는 뜻은 아닙니다. 가장 흔한 함정이 read-modify-write입니다 — 값을 읽고(SELECT), 앱 코드에서 계산하고, 다시 씁니다(UPDATE).

예를 들어 재고 차감을 SELECT stock → 앱에서 stock - 1 → UPDATE ... SET stock = 계산값으로 하면, 동시에 들어온 두 요청이 같은 재고를 읽고 각자 계산해 덮어써 한쪽 갱신이 사라집니다. 이것이 lost update입니다.
기본 격리 수준(대개 Read Committed)은 이 패턴을 막아 주지 않습니다. MVCC는 '읽는 사람이 쓰는 사람을 막지 않게' 해 동시성을 높이지만, 그 자체가 애플리케이션의 read-modify-write 경쟁을 없애지는 못합니다.

세 가지 처방이 있습니다.

SQL

-- (1) 원자적 UPDATE — DB가 현재값 기준으로 한 문장에 갱신
UPDATE products SET stock = stock - 1 WHERE id = 42 AND stock > 0;
-- 영향 받은 행 수가 0이면 재고 부족으로 처리

-- (2) 명시적 잠금 — 읽는 행을 잠그고 갱신
SELECT stock FROM products WHERE id = 42 FOR UPDATE;
-- 이어서 UPDATE

-- (3) 낙관적 락 — version으로 충돌 감지 후 재시도
UPDATE products SET stock = stock - 1, version = version + 1
WHERE id = 42 AND version = 7;

'DB를 쓴다'와 '동시성을 올바르게 다룬다'는 다른 문제입니다.

상황: 파일 동시성 문제 때문에 DB로 옮겼는데, 선착순 특가처럼 요청이 몰리는 순간 재고가 0 밑으로 내려가 실제보다 많이 팔렸습니다.

원인: 재고 차감 로직이 read-modify-write였습니다 — 앱이 현재 재고를 SELECT로 읽고, 코드에서 1을 빼고, 그 값을 UPDATE로 다시 씁니다. 동시에 들어온 두 요청이 같은 재고(예: 1)를 읽고 각자 0으로 계산해 덮어써, 한 번만 팔려야 할 마지막 재고가 두 번 팔립니다(lost update). DB를 썼어도 기본 격리 수준은 이 애플리케이션 레벨 경쟁을 막지 않습니다.

진단: 재고 감소가 별도 SELECT 후 계산해서 UPDATE하는 구조인지 코드를 확인합니다. 부하 테스트로 동시 요청을 보내 재고가 음수로 가는지 재현하고, 트랜잭션 경계가 SELECT와 UPDATE를 제대로 감싸는지 봅니다.

해결: 재고 차감을 한 문장 원자적 UPDATE로 바꿉니다 — UPDATE products SET stock = stock - 1 WHERE id = ? AND stock > 0. 영향 받은 행 수가 0이면 재고 부족으로 처리합니다. 강한 직렬화가 필요하면 SELECT ... FOR UPDATE로 행을 잠그고, 충돌이 드물면 version 컬럼 낙관적 락으로 감지 후 재시도합니다(트랜잭션 격리 수준(Isolation Level)과 이상 현상 제어).

명령어·구문 빠른 참조

이 모듈에서 DBMS가 파일 대비 무엇을 보장하는지 보여줄 때 쓴 SQL 구문을 모았습니다.

구문/명령	용도	예
`BEGIN` / `COMMIT` / `ROLLBACK`	트랜잭션 경계(원자성)	이체: 두 UPDATE를 한 단위로 묶기
`UPDATE ... SET ...`	데이터 변경	`UPDATE accounts SET balance = balance - 100000 WHERE id=1`
`CREATE TABLE` + 제약	무결성 규칙을 테이블에 정의	`PRIMARY KEY`·`NOT NULL`·`UNIQUE`·`CHECK` 조합
`CHECK (...)`	잘못된 값 차단	`age INT CHECK (age >= 0 AND age <= 150)`
`UNIQUE` / `PRIMARY KEY`	중복·식별자 제약	`email VARCHAR(255) UNIQUE NOT NULL`
`CREATE INDEX`	검색 성능(O(log n))	`CREATE INDEX idx_users_email ON users(email)`
`EXPLAIN`	Seq Scan vs Index Scan 확인	`EXPLAIN SELECT * FROM users WHERE email = ...`
원자적 `UPDATE ... WHERE 조건`	lost update 방지(재고 차감)	`UPDATE products SET stock = stock - 1 WHERE id = ? AND stock > 0`
`SELECT ... FOR UPDATE`	읽는 행을 잠그고 갱신	강한 직렬화가 필요할 때
낙관적 락(`version`)	충돌 감지 후 재시도	`UPDATE ... SET version = version + 1 WHERE id = ? AND version = 7`

관련 모듈로 더 깊이:

트랜잭션의 4대 속성(ACID)과 복구 원리 — 파일 공유로는 불가능한 동시 쓰기 중재를 DBMS가 보장하는 원리
RDBMS, NoSQL, 그리고 분산 확장 가능한 NewSQL 전격 비교 — 관계형 모델 이후 등장한 NoSQL·NewSQL까지 패러다임 지형
우리 서비스에 맞는 최적의 RDBMS vs NoSQL 고르기 — 엑셀/CSV에서 어떤 DB로 넘어갈지 실제로 선택하는 기준

다음 모듈에서는 요구사항을 ERD로 시각화하고 정규화 원칙으로 테이블 구조를 설계하는 방법을 다룹니다.

[Database] 파일 시스템의 한계와 데이터베이스 관리 시스템(DBMS)의 탄생