Ứng dụng chết, nhưng Argo vẫn báo deployed OK… chắc tại user xài sai!
ArgoCD sync manifest đẹp như mơ, báo “Healthy”, nhưng app thì crashloop, pod chết, khách hàng kêu ca. Audit xong, tôi chỉ muốn hỏi: “Sao không ai gắn health check hay alert vậy trời?”
![]() |
ArgoCD sync OK nhưng app thì crashloop! |
Thực trạng: Sync mà không monitor
Thực trạng:
- ArgoCD sync đúng manifest, nhưng không check pod status hay app health.
- Không tích hợp Prometheus/Grafana, không alert khi app crash sau sync.
- Team chỉ biết lỗi khi khách hàng báo hoặc log đầy lỗi 500.
Hệ quả:
- Lỗi runtime ẩn: App crash nhưng ArgoCD vẫn báo “thành công”.
- Debug chậm: Phải lật log Kubernetes để tìm nguyên nhân.
- Khách hàng bực: Downtime kéo dài vì không có alert kịp thời.
Giải pháp: Tích hợp observability
Để GitOps “thông minh”:
- Health check hook: Cấu hình ArgoCD check pod status hoặc endpoint /health sau sync.
- Prometheus/Grafana: Monitor metric (CPU, memory, error rate), visualize trên dashboard.
- Alerting: Gửi alert qua Slack/Teams nếu app fail, dùng Prometheus Alertmanager.
Ví dụ: ArgoCD health check:
spec: syncPolicy: syncOptions: - Validate=true healthChecks: - kind: Pod name: my-app namespace: prod condition: Ready
🎯 Tóm lại: GitOps không observability là “sync mù”. Tích hợp health check, Prometheus, và alert để biết app sống hay chết sau sync.
Đăng nhận xét