Site Reliability Engineering: Measuring and Managing Reliability

Là một người làm backend lâu năm và từng trải qua nhiều “đêm trắng” xử lý sự cố production, tôi hiểu rõ cảm giác hệ thống “đi ngủ” trong giờ cao điểm có thể khiến cả team hoảng loạn thế nào.

Tuy nhiên, trước đây việc “đảm bảo hệ thống ổn định” vẫn thường dựa vào kinh nghiệm và… cầu may nhiều hơn là một phương pháp khoa học.

Đó là lý do năm 2025 tôi tham gia khóa Site Reliability Engineering: Measuring and Managing Reliability của Google Cloud – một chương trình đào tạo giúp biến độ tin cậy từ khái niệm mơ hồ thành một tập hợp các chỉ số và quy trình có thể đo lường, giám sát và cải thiện.



Nội dung nổi bật từ khóa học

Khóa này giúp tôi tiếp cận SRE (Site Reliability Engineering) theo cách chuẩn Google, tập trung vào việc định nghĩa, đo lường và quản lý độ tin cậy của hệ thống thông qua các khái niệm cốt lõi:
  • Service Level Indicators (SLI) – Chỉ số phản ánh chất lượng dịch vụ từ góc nhìn người dùng.
  • Service Level Objectives (SLO) – Mục tiêu định lượng cho độ tin cậy mà hệ thống cần đạt.
  • Error Budget – “Ngân sách lỗi” cho phép hệ thống có một mức độ lỗi nhất định mà vẫn đáp ứng mục tiêu kinh doanh.
  • Monitoring & Alerting – Giám sát chủ động, cảnh báo sớm, tránh sự cố trở thành thảm họa.
  • Incident Management – Quy trình xử lý sự cố nhanh chóng, có phân tích nguyên nhân gốc rễ (Postmortem).

Giá trị tôi nhận được

  • Tư duy SRE chuẩn hóa – không còn “đánh giá cảm tính” mà dựa trên dữ liệu và chỉ số cụ thể.
  • Biết cách cân bằng giữa tốc độ phát triển và độ ổn định, tránh việc “chạy nhanh để… ngã đau”.
  • Giảm thiểu downtime thông qua giám sát thông minh và xử lý sự cố có quy trình.
  • Áp dụng SLO & Error Budget để giao tiếp hiệu quả hơn giữa đội kỹ thuật và đội kinh doanh.

Ý nghĩa với sự nghiệp

Chứng chỉ này là một bước tiến quan trọng, giúp tôi không chỉ xây dựng hệ thống mạnh mẽ về mặt kỹ thuật, mà còn đảm bảo chúng hoạt động bền vững, ổn định và đo lường được.

Nếu QA giúp tôi bàn giao sản phẩm “không lỗi”, thì SRE đảm bảo sản phẩm ấy vận hành trơn tru lâu dài.

Post a Comment

Mới hơn Cũ hơn