Glossary
DevOps
Observability
시스템의 외부 출력(로그, 메트릭, 트레이스)을 통해 내부 상태를 이해하고 “알려지지 않은 문제”까지 탐색할 수 있는 능력. MTTR(평균 복구 시간)을 70% 단축하는 핵심 역량입니다.
1. Three Pillars of Observability
Logs
이벤트의 불변 기록
- • 구조화된 로그 (JSON)
- • 에러 메시지, 요청 정보
- • 디버깅 및 감사
Metrics
시간에 따른 수치 데이터
- • CPU, 메모리, 요청 수
- • 집계 및 알림
- • 대시보드 시각화
Traces
분산 시스템 요청 경로 추적
- • 서비스 간 호출 추적
- • 병목 지점 식별
- • 지연 원인 분석
2. Monitoring vs Observability
| Monitoring | Observability |
|---|---|
| 알려진 문제 감지 | 알려지지 않은 문제 탐색 |
| 대시보드 중심 | 탐색적 분석 |
| 무엇이 잘못됐는지 | 왜 잘못됐는지 |
3. AWS Observability 스택
수집 & 저장
- • CloudWatch Logs/Metrics
- • AWS X-Ray
- • Amazon OpenSearch
- • Amazon Managed Grafana
분석 & 알림
- • CloudWatch Alarms
- • CloudWatch Insights
- • Amazon DevOps Guru
- • AWS Distro for OpenTelemetry
Summary
Observability는 복잡한 분산 시스템을 이해하고 문제를 빠르게 해결하는 핵심 역량입니다. Logs, Metrics, Traces의 세 기둥을 통해 시스템의 내부 상태를 파악합니다.
- • Three Pillars: Logs, Metrics, Traces
- • 알려지지 않은 문제까지 탐색 가능
- • MTTR 70% 단축 효과