Hệ thống vẫn chạy... theo niềm tin. Không ai monitor.
Khi audit, tôi hỏi: “Làm sao biết server còn sống?” và nhận được câu trả lời: “Chạy thì chạy, chết thì… sẽ biết.” Không health check, hệ thống như bệnh nhân không đo huyết áp – chết lúc nào không hay.
![]() |
Server còn sống không? Để tôi check thử! |
Vấn đề: Không monitor trạng thái
Hệ thống thiếu:
- Endpoint /health để kiểm tra trạng thái service.
- Alert khi service down hoặc database không kết nối được.
Hậu quả: Team chỉ biết hệ thống chết khi khách hàng kêu ca.
Giải pháp: Tạo health check
Để monitor:
- Tạo endpoint /healthz: Trả về 200 nếu OK, 500 nếu có lỗi (DB, queue, external service).
- Tích hợp monitoring: Dùng Grafana, CloudWatch, hoặc Prometheus để check định kỳ.
- Gửi alert: Cấu hình alert qua Slack/Email khi /healthz trả 500.
Ví dụ: /healthz check kết nối DB, queue, và trả {status: "ok"} hoặc {status: "error", message: "DB down"}.
🎯 Tóm lại: Health check là “máy đo nhịp tim” của hệ thống. Tạo endpoint /healthz và tích hợp monitoring để phát hiện vấn đề sớm.
Đăng nhận xét