AWS tê liệt: Lỗi load balancer Amazon gây gián đoạn hàng loạt dịch vụ

Ngày 21/10/2025, Amazon thông báo khắc phục hoàn tất sự cố AWS từ 14h11 ngày 20/10 tại Virginia, nguyên nhân từ hệ thống giám sát load balancer hỏng làm DNS DynamoDB lỗi, ảnh hưởng nghìn app toàn cầu như Zoom, Venmo

Chi tiết kỹ thuật và phục hồi hệ thống

Sự cố bắt nguồn từ phân hệ nội bộ theo dõi sức khỏe bộ cân bằng tải mạng, gây lỗi DNS định tuyến cho DynamoDB – dịch vụ cơ sở dữ liệu cốt lõi – dẫn đến tăng tỷ lệ lỗi truy cập đột ngột. Xảy ra tại US-EAST-1, khu vực lâu đời nhất AWS, kỹ sư nhanh chóng can thiệp, khôi phục lõi hệ thống chiều 20/10, dù một số dịch vụ như Redshift vẫn xử lý backlog dữ liệu. Amazon loại trừ tấn công mạng, xác nhận đây là vấn đề nội bộ tương tự các outage trước.

Hậu quả kinh tế và khuyến nghị chuyên gia

Hàng nghìn dịch vụ tê liệt bao gồm Snapchat, Reddit, Zoom, Venmo, Duolingo, Airbnb, Signal, WhatsApp, Amazon.com; ngân hàng Anh và website chính phủ cũng bị ảnh hưởng, với Downdetector ghi hơn 4 triệu báo cáo. Giáo sư Ken Birman (Cornell) cảnh báo outage lớn nhất toàn cầu kể từ CrowdStrike 2024, kêu gọi doanh nghiệp áp dụng công cụ chịu lỗi của AWS thay vì cắt giảm dự phòng để tiết kiệm, nhằm tăng khả năng phục hồi hạ tầng Internet toàn cầu trong kỷ nguyên số hóa.

Theo: Tin Tức