Nguyên nhân Cloudflare lỗi sập toàn cầu
CEO Matthew Prince giải thích về sự cố:
1. Nguyên nhân gốc rễ (Tại sao lại sập?):
Không phải do bị tấn công mạng: Cloudflare khẳng định đây không phải là tấn công DDoS hay hacker.
Lỗi cấu hình nội bộ: Một thay đổi quyền truy cập trên cơ sở dữ liệu (ClickHouse) vào lúc 11:05 UTC đã gây ra lỗi.
Cụ thể: Thay đổi này khiến truy vấn tạo ra một “tệp cấu hình tính năng” (dùng cho hệ thống Chống Bot) bị lỗi.
Tệp này chứa dữ liệu bị nhân đôi, làm kích thước tệp tăng vọt, vượt quá giới hạn bộ nhớ cho phép (200 tính năng) của phần mềm trên các máy chủ.
Khi tệp lỗi này được đồng bộ ra toàn mạng lưới, hệ thống Core Proxy (xử lý lưu lượng chính) bị lỗi hàng loạt, dẫn đến mã lỗi 5xx.
2. Diễn biến & Thời gian (Giờ UTC ngày 18/11):
11:05: Bắt đầu thay đổi cấu hình database (nguyên nhân).
11:20: Lưu lượng truy cập bắt đầu bị lỗi (User thấy trang 5xx).
11:30 - 13:05: Đội kỹ thuật ban đầu nghi ngờ nhầm là tấn công DDoS quy mô lớn nên tập trung sai hướng.
13:05: Áp dụng giải pháp tạm thời (bypass) cho một số dịch vụ để giảm thiểu tác động.
14:24: Tìm ra nguyên nhân là tệp cấu hình Bot Management bị lỗi và chặn việc tạo tệp mới.
14:30: Khôi phục lại phiên bản tệp cấu hình cũ (hoạt động tốt). Lưu lượng chính bắt đầu ổn định trở lại.
17:06: Toàn bộ hệ thống phục hồi hoàn toàn.
3. Các dịch vụ bị ảnh hưởng:
Core CDN & Security (Trang web dùng Cloudflare bị lỗi 5xx).
Turnstile (CAPTCHA không hiện).
Cloudflare Dashboard (Không đăng nhập được).
Workers KV & Access.
Kết Luận
Cloudflare đã tự làm sập hệ thống của mình do một lỗi kỹ thuật khi cập nhật cơ sở dữ liệu nội bộ, khiến hệ thống chống Bot bị “ngộ độc” dữ liệu và kéo sập các proxy server. Hiện tại họ đã khắc phục xong và đang áp dụng các biện pháp để ngăn chặn lỗi tương tự trong tương lai.
Ủng Hộ & Chia Sẻ
Nếu bài viết này giúp ích cho bạn, hãy chia sẻ hoặc ủng hộ nhé!