On call. Alarm is killing me
온콜, 알림만 보다가 죽겠어요
☸️ “온콜 알림만 보다가 죽겠어요” — 당근 SRE 팀의 알림 시스템 재탄생기
📘 1. 배경 — 알림의 바다에서 살아남기
🔍 기존 모니터링 환경
🚨 2. 장애의 실상 — “무슨 알림이 중요한지 모르겠다”
① 네임스페이스 혼합 문제
② 가독성 문제
③ 프로젝트 정보 누락
🧩 3. 문제의 근본 원인 — 시스템보다 사람이 빠르다
🛠️ 4. 프로젝트 탄생 — Alert Delivery v1
목표
설명
📊 동작 방식
🔁 자동 멘션 조건
🧵 10. 기능 ② — Slack Threading
✨ 효과
🌐 11. 기능 ③ — Grafana Alert 전면 통합
🧱 기술 구조
🔎 12. 기능 ④ — 배포 이력 자동 삽입 (Alert Insight Bot)
📉 13. 성과 분석 — “알림만 보다 죽던 시대의 종말”
📊 알림 메시지 감소량
📈 Mentions 감소량
💬 14. 현장 피드백 — “이제는 알림이 아니라 인사이트다”
📘 15. 시스템 아키텍처 — Alert Flow 재구성
💡 16. 기술적 인사이트 — “좋은 알림은 기술이 아니라 철학이다”
🧭 17. 교훈 — 기술보다 조직의 성숙이 중요하다
🚧 18. 향후 과제 — 우리는 여전히 발전 중이다
느낀점
Last updated