Tại Úc và Aotearoa New Zealand, các báo cáo cho thấy máy tính tại ngân hàng, tổ chức truyền thông, bệnh viện, dịch vụ vận tải, quầy thanh toán cửa hàng, sân bay... trở thành “cục gạch” khi liên tục khởi động lại và gặp lỗi màn hình xanh. Sự cố ngừng hoạt động trên diện rộng có liên quan đến một phần mềm có tên CrowdStrike Falcon.
Sự cố CrowdStrike đã được nghiên cứu rộng rãi trong các cơ quan chính phủ, phương tiện truyền thông, tổ chức chuyên nghiệp và trong môi trường học thuật. Sự cố cập nhật phần mềm đã ảnh hưởng đến gần 8,5 triệu hệ thống chạy hệ điều hành Windows và tác động đến nhiều người dùng Microsoft, nhưng các cơ quan chính phủ và doanh nghiệp phải chịu hậu quả nặng nề nhất.
Sự gián đoạn dịch vụ toàn cầu này đã tác động đến nhiều ngành công nghiệp, gây ra thiệt hại tài chính khoảng 5,4 tỷ đô la cho riêng các công ty thuộc danh sách Fortune 500. Tổng thiệt hại toàn cầu ước tính khoảng 15 tỷ đô la.
Đối với các doanh nghiệp có sử dụng phần mềm bảo mật Crowdstrike, quy trình khôi phục không thể thực hiện từ xa hoặc ở quy mô lớn; thay vào đó phải thực hiện quy trình khôi phục theo cách thủ công cho từng hệ thống.
Sự gián đoạn đối với cả hoạt động nội bộ và bên ngoài lớn đến mức các công ty như Delta Airlines cho biết sự cố gây gián đoạn hệ thống làm ngừng hoạt động khiến công ty thiệt hại khoảng 550 triệu đô la và họ đang yêu cầu các khoản bồi thường thiệt hại đối với cả Microsoft và CrowdStrike.
Một số bài học
Bằng cách phân tích trường hợp này, có một số bước thực tế có thể được thực hiện để giảm thiểu tác động nếu một sự kiện tương tự xảy ra trong tương lai.
Về phía các doanh nghiệp và tổ chức, có thể giảm thiểu tác động của các sự cố trong tương lai bằng cách đặt rủi ro CNTT lên hàng đầu và hiểu rõ các yêu cầu ứng phó sự cố của nhà cung cấp:
Tích hợp rủi ro CNTT và kinh doanh: Sự cố mất điện gây ra tình trạng giảm năng suất và khả năng chậm trễ trong các quy trình kinh doanh quan trọng, ảnh hưởng đến hiệu quả hoạt động chung, kết quả tài chính, tổn hại về uy tín và sự hài lòng của khách hàng. Rủi ro CNTT cần được tích hợp với rủi ro kinh doanh của công ty. Việc phát triển và liên tục cập nhật Kế hoạch phục hồi kinh doanh (BRP) bao gồm chuỗi cung ứng là rất quan trọng.
Chiến lược giảm thiểu cho các bản cập nhật phần mềm: Microsoft không thể phát hiện ra lỗi này vì CrowdStrike truy cập trực tiếp vào lõi hệ điều hành Windows, khiến hệ thống không có khả năng phòng thủ tích hợp. Chiến lược "phòng thủ chuyên sâu" trong lịch sử đã trở nên lỗi thời trong bối cảnh khả năng phục hồi mạng hiện đại.
Tuy nhiên, trong bất kỳ chiến lược phòng thủ nào, các tuyến đường quan trọng - chẳng hạn như truy cập vào lõi - đều phải được giám sát chặt chẽ để ngăn chặn các sự kiện có quy mô như thế này.
Ngoài ra, sự kiện này nhấn mạnh nhu cầu của Microsoft trong việc quay lại mô hình triển khai vòng để quản lý bản vá và cập nhật phần mềm. Khi sử dụng phương pháp tiếp cận theo từng giai đoạn, cùng với việc áp dụng phương pháp tiếp cận tiên tiến hơn đối với an ninh mạng, sự cố ngừng hoạt động của CrowdStrike có thể ít tác động hơn. Tuy nhiên, một số phức tạp về mặt kỹ thuật liên quan đến nhu cầu của CrowdStrike đối với các cấp độ truy cập sâu vào hệ điều hành Windows cần được đánh giá cẩn thận cùng với bất kỳ chiến lược triển khai nào.
Duy trì tính minh bạch và truyền thông rõ ràng: Tính minh bạch và truyền thông rõ ràng với các bên liên quan là rất quan trọng trong các sự cố. Các cơ quan và tổ chức phải có kế hoạch truyền thông được xác định rõ ràng cho cả đối tượng bên trong và bên ngoài để quản lý hiệu quả quan hệ công chúng, duy trì lòng tin và duy trì mối quan hệ chặt chẽ với khách hàng và đối tác.
Đa dạng hóa các giải pháp bảo mật: Mặc dù sự kiện CrowdStrike về mặt kỹ thuật không phải là vi phạm bảo mật (một số người cho rằng như vậy), sự cố này đã tạo ra lỗ hổng bằng cách phá vỡ khả năng phát hiện mối đe dọa theo thời gian thực và khả năng ứng phó sự cố.
Nói một cách đơn giản hơn, các tổ chức không thể giám sát hiệu quả các điểm cuối hoặc ứng phó với các sự cố bảo mật, tạo ra một cửa sổ cho các vi phạm không bị phát hiện và sự di chuyển ngang của các mối đe dọa. Những vấn đề này làm tăng tác động có thể xảy ra của sự cố gián đoạn hệ thống.
Trong khi hầu hết các khoản lỗ tài chính được báo cáo đều đến từ sự gián đoạn dịch vụ, các cuộc tấn công mạng cũng có thể gây ra những tác động tài chính nghiêm trọng.
Các tổ chức nên lập ngân sách cho các sự cố gián đoạn tiềm ẩn, bao gồm chi phí liên quan đến thời gian ngừng hoạt động, phản hồi sự cố, phí pháp lý và tiền phạt theo quy định. Trong trường hợp này, bảo hiểm mạng có thể cung cấp mạng lưới an toàn cho các tổ chức.
Ngoài ra, các cơ quan và tổ chức nên đa dạng hóa bộ giải pháp bảo mật của mình. Việc triển khai nhiều lớp kiểm soát và công cụ bảo mật đảm bảo tính dự phòng và khả năng phục hồi. Vì các cơ quan cần đảm bảo phản ứng nhanh chóng và hiệu quả đối với sự cố mất điện và sự cố bảo mật, nên việc liên tục kiểm tra và cập nhật tính liên tục của hoạt động kinh doanh, phục hồi sau thảm họa và các kế hoạch ứng phó sự cố sẽ đóng vai trò lớn trong việc phòng thủ trước các sự kiện mạng. Điều này bao gồm việc có các giao thức truyền thông rõ ràng và các hệ thống sao lưu tại chỗ.
Kiểm soát chặt từ đầu nguồn
Các công ty phần mềm có thể hành động như thế nào để tránh trở thành "thủ phạm" tiếp theo gây ra ngừng hoạt động, gây tốn kém cho khách hàng của mình? Sau đây là một số biện pháp chủ động cần thực hiện để ngăn ngừa tổn thất lớn:
Thử nghiệm bằng dữ liệu thực tế: Chất lượng của dữ liệu giả lập phụ thuộc vào người tạo ra nó, không gì có thể thay thế dữ liệu thực tế. Đưa ứng dụng qua các tình huống thử nghiệm bằng dữ liệu thực tế sẽ giúp tìm ra lỗi trước khi chúng được đưa vào sản xuất. Mặc dù điều này có thể không khả thi đối với mọi ứng dụng, nhưng vẫn đáng để cân nhắc.
Kiểm tra xác thực bổ sung: Các kiểm tra xác thực bổ sung cho các bản cập nhật nội dung phản hồi nhanh là rất quan trọng để đảm bảo tính chính xác, bảo mật và chức năng. Trong các tình huống áp lực cao, lỗi có thể dễ dàng lọt qua. Các tổ chức nên luôn lập kế hoạch để:
Khởi xướng phương pháp triển khai theo từng giai đoạn cho Nội dung phản hồi nhanh tới một phần lớn hơn của mạng cảm biến; Tăng cường giám sát hiệu suất của cảm biến và hệ thống, thu thập phản hồi trong suốt quá trình triển khai; Truyền đạt thông tin chi tiết về cập nhật nội dung tới khách hàng thông qua ghi chú phát hành.
Triển khai theo từng giai đoạn cho các ứng dụng quan trọng: Khuyến khích triển khai theo từng giai đoạn cho các ứng dụng quan trọng để giảm thiểu rủi ro, đặc biệt là trong những trường hợp như thế này. Bằng cách triển khai dần dần các bản cập nhật hoặc thay đổi, các tổ chức có thể phát hiện và giải quyết các vấn đề sớm, ngăn ngừa sự gián đoạn trên diện rộng. Phương pháp kiểm soát này giúp tăng cường tính ổn định của hệ thống và đảm bảo tính liên tục của hoạt động trong quá trình cập nhật quan trọng.
Tăng cường diễn tập an ninh mạng: Các cuộc diễn tập này là các mô phỏng có cấu trúc được thiết kế để mô phỏng các cuộc tấn công mạng tiềm ẩn hoặc sự gián đoạn hệ thống. Các bài tập như vậy cho phép các tổ chức kiểm tra khả năng phòng thủ, xác định các lỗ hổng và đánh giá mức độ sẵn sàng của các nhóm ứng phó sự cố. Bằng cách mô phỏng nhiều tình huống tấn công khác nhau như phần mềm tống tiền, vi phạm dữ liệu hoặc lỗi hệ thống, các cuộc diễn tập an ninh mạng đánh giá mức độ phát hiện, ngăn chặn và phục hồi của một tổ chức sau các mối đe dọa bảo mật.
Điều này cũng đảm bảo rằng các tổ chức được chuẩn bị tốt, phối hợp chặt chẽ với các nhóm an ninh mạng để có thể đưa ra quyết định rõ ràng khi chịu áp lực. Thông qua các cuộc diễn tập này, các tổ chức xây dựng được văn hóa sẵn sàng, giảm thiểu tác động chung của các sự cố mạng, giống như việc diễn tập ứng phó thảm họa để giảm thiểu thiệt hại tiềm tàng.
Khung phục hồi an ninh mạng
An ninh mạng tập trung vào việc ngăn chặn các cuộc tấn công mạng và các sự cố bảo mật khác xảy ra và giảm thiểu thiệt hại mà chúng có thể gây ra. Nó bao gồm các biện pháp để ngăn chặn kẻ thù xâm nhập vào mạng, chẳng hạn như tường lửa và các công cụ chống vi-rút, và các biện pháp kiểm soát truy cập như mô hình đặc quyền tối thiểu và xác thực đa yếu tố (MFA), cũng như các phương pháp tiếp cận phi kỹ thuật như đào tạo nhận thức về bảo mật cho người dùng.
Nó cũng bao gồm các chiến lược để phát hiện các mối đe dọa đang diễn ra và phản hồi chúng kịp thời để hạn chế tác động của chúng, chẳng hạn như hoạt động kiểm toán trên toàn bộ hệ sinh thái CNTT, phân tích hành vi và thực thể của người dùng (UBEA) và kiểm soát thay đổi. Nhưng các tổ chức đã nhận ra rằng, trong khi an ninh mạng vẫn là mối quan tâm chính, thì đó là một phần của mục tiêu lớn hơn: duy trì hoạt động kinh doanh. Theo đó, sự chú ý đã chuyển sang khả năng phục hồi mạng trong những năm gần đây.
Khả năng phục hồi mạng không chỉ là giảm tổn thất tài chính mà còn là bảo vệ thương hiệu, niềm tin, uy tín, hoạt động hiệu quả và lợi thế cạnh tranh mà công ty đã xây dựng trên thị trường. Khung phục hồi mạng là hướng dẫn - các biện pháp thực hành tốt nhất có cấu trúc và các biện pháp kiểm soát bảo mật được khuyến nghị mà các tổ chức có thể áp dụng để cải thiện khả năng ngăn chặn, chống chọi và phục hồi sau các mối đe dọa an ninh mạng.
Khung phục hồi mạng không liệt kê các quy tắc cứng nhắc cần tuân theo hoặc nêu chi tiết một tập hợp công nghệ hoặc sản phẩm cụ thể cần triển khai. Thay vào đó, chúng trình bày chi tiết các biện pháp thực hành tốt nhất và cung cấp hướng dẫn có giá trị để cải thiện khả năng phục hồi mạng của bạn. Các tổ chức có thể và nên điều chỉnh các khung phục hồi mạng để đáp ứng các mục tiêu và yêu cầu riêng của họ.
Trên thế giới hiện có nhiều khung phục hồi hướng dẫn các tổ chức tăng cường thế trận an ninh của mình. Các khung nổi bật bao gồm NIST Cybersecurity Framework, ISO/IEC 27001 và CIS Controls. Ví dụ, phổ biến nhất là Khung an ninh mạng (CSF) của Viện Tiêu chuẩn và Công nghệ Quốc gia NIST (Hoa Kỳ). Khung này là một bộ hướng dẫn được thiết kế để giúp các tổ chức quản lý năm chức năng chính: xác định, bảo vệ, phát hiện, phản hồi và phục hồi. Điều này cung cấp một cách tiếp cận linh hoạt để cải thiện bảo mật và khả năng phục hồi trước các mối đe dọa mạng.
MITRE cũng cung cấp Khung kỹ thuật phục hồi mạng (CREF), đưa ra các mục tiêu và kỹ thuật phục hồi. Tương tự như vậy, Khung đánh giá an ninh mạng (CAF) do Trung tâm an ninh mạng quốc gia (NCSC) của Vương quốc Anh xây dựng nhằm mục đích tăng cường tính bảo mật của các hệ thống mạng và thông tin trên khắp Vương quốc Anh, đặc biệt là những hệ thống quan trọng đối với kinh tế, xã hội, môi trường và cá nhân. Nhưng trước khi triển khai các khuôn khổ này, các tổ chức cần thiết lập nền tảng phục hồi an ninh mạng thông qua một số hoạt động chuẩn mực.
Khi chúng ta nhìn về phía trước, thước đo thực sự của khả năng phục hồi mạng không nằm ở việc ngăn chặn mọi mối đe dọa mà là chuẩn bị để giải quyết các mối đe dọa. Sự cố CrowdStrike là một sự kiện mà chúng ta sẽ không sớm quên. Ngay cả sau khi nguyên nhân được xác định và một cuộc tấn công mạng bị loại trừ, sự gián đoạn vẫn tiếp tục chồng chất. Những tác động đó chắc chắn sẽ được cảm nhận khi chúng ta tiếp tục khảo sát thiệt hại.
Điểm tích cực nằm ở những bài học rút ra từ sự cố này. Sự hiểu biết sâu sắc hơn sẽ trang bị tốt hơn cho các cơ quan và tổ chức để ứng phó với những thách thức trong tương lai. Mặc dù chúng ta khó có thể ngăn chặn hoàn toàn những sự kiện bất ngờ như sự cố cập nhật phần mềm CrowdStrike, nhưng chúng ta có thể thực hiện các biện pháp chủ động để giảm thiểu tác động của những sự cố tương tự trong tương lai./.