Glossary
DevOps

Observability

시스템의 외부 출력(로그, 메트릭, 트레이스)을 통해 내부 상태를 이해하고 “알려지지 않은 문제”까지 탐색할 수 있는 능력. MTTR(평균 복구 시간)을 70% 단축하는 핵심 역량입니다.

1. Three Pillars of Observability

Logs

이벤트의 불변 기록

  • • 구조화된 로그 (JSON)
  • • 에러 메시지, 요청 정보
  • • 디버깅 및 감사
CloudWatch Logs
Metrics

시간에 따른 수치 데이터

  • • CPU, 메모리, 요청 수
  • • 집계 및 알림
  • • 대시보드 시각화
CloudWatch Metrics
Traces

분산 시스템 요청 경로 추적

  • • 서비스 간 호출 추적
  • • 병목 지점 식별
  • • 지연 원인 분석
AWS X-Ray

2. Monitoring vs Observability

MonitoringObservability
알려진 문제 감지알려지지 않은 문제 탐색
대시보드 중심탐색적 분석
무엇이 잘못됐는지왜 잘못됐는지

3. AWS Observability 스택

수집 & 저장

  • • CloudWatch Logs/Metrics
  • • AWS X-Ray
  • • Amazon OpenSearch
  • • Amazon Managed Grafana

분석 & 알림

  • • CloudWatch Alarms
  • • CloudWatch Insights
  • • Amazon DevOps Guru
  • • AWS Distro for OpenTelemetry
Summary

Observability는 복잡한 분산 시스템을 이해하고 문제를 빠르게 해결하는 핵심 역량입니다. Logs, Metrics, Traces의 세 기둥을 통해 시스템의 내부 상태를 파악합니다.

  • • Three Pillars: Logs, Metrics, Traces
  • • 알려지지 않은 문제까지 탐색 가능
  • • MTTR 70% 단축 효과