Red1 트레이스 기반 SLO 구축: RED/USE 메트릭, 샘플링 전략, Grafana 경보까지 한 번에 트레이스 기반 SLO 구축: RED/USE 메트릭, 샘플링 전략, Grafana 경보까지 한 번에이전 글에서 OpenTelemetry + Tempo로 분산 트레이싱 파이프라인을 만들었습니다. 이제 그 트레이스에서 직접 SLI/SLO를 뽑아 경보까지 이어가 봅니다. 핵심은 RED(Rate·Errors·Duration)와 USE(Utilization·Saturation·Errors) 모델을 트레이스/메트릭에 매핑하고, 샘플링 손실을 고려한 집계 방법을 정하는 것입니다.1) 왜 “트레이스 기반” SLO인가? 병목 구간 가시화: 단순 5xx 비율이 아니라 “외부 API 지연”처럼 구간별 시간이 타임라인으로 보입니다. 근본원인으로 점프: 경보 → 해당 트레이스 → 관련 로그/스팬으로 3클릭 분석. 엔드-투-.. 2025. 10. 30. 이전 1 다음