Không có health check: server chết lúc nào không ai biết

Hệ thống vẫn chạy... theo niềm tin. Không ai monitor.

Khi audit, tôi hỏi: “Làm sao biết server còn sống?” và nhận được câu trả lời: “Chạy thì chạy, chết thì… sẽ biết.” Không health check, hệ thống như bệnh nhân không đo huyết áp – chết lúc nào không hay.

Server còn sống không? Để tôi check thử!

Vấn đề: Không monitor trạng thái

Hệ thống thiếu:
  • Endpoint /health để kiểm tra trạng thái service.
  • Alert khi service down hoặc database không kết nối được.

Hậu quả: Team chỉ biết hệ thống chết khi khách hàng kêu ca.

Giải pháp: Tạo health check

Để monitor:
  • Tạo endpoint /healthz: Trả về 200 nếu OK, 500 nếu có lỗi (DB, queue, external service).
  • Tích hợp monitoring: Dùng Grafana, CloudWatch, hoặc Prometheus để check định kỳ.
  • Gửi alert: Cấu hình alert qua Slack/Email khi /healthz trả 500.

Ví dụ: /healthz check kết nối DB, queue, và trả {status: "ok"} hoặc {status: "error", message: "DB down"}.

🎯 Tóm lại: Health check là “máy đo nhịp tim” của hệ thống. Tạo endpoint /healthz và tích hợp monitoring để phát hiện vấn đề sớm.

Post a Comment

Mới hơn Cũ hơn