Lỗ hổng an toàn thông tin từ AI tạo sinh

Chủ nhật - 20/10/2024 11:21

Trong vòng một vài năm trở lại đây, AI tạo sinh đã trở thành một công cụ phổ biến trên Internet. Sự tiến bộ nhanh chóng trong các công nghệ AI như xử lý ngôn ngữ tự nhiên đã làm cho AI tạo sinh trở nên dễ tiếp cận đối với người dùng và những người sáng tạo nội dung quy mô lớn.

Lỗ hổng an toàn thông tin từ AI tạo sinh

Mặc dù trí tuệ nhân tạo (AI) tạo sinh mang đến những tiềm năng vượt trội trong việc sáng tạo và tạo nội dung, nhưng đồng thời cũng mở ra những cơ hội mà tin tặc và các tác nhân đe dọa có thể lợi dụng để thực hiện các cuộc tấn công mạng độc hại.

Công nghệ AI tạo sinh có thể dẫn đến những rủi ro nghiêm trọng liên quan đến an toàn thông tin, các nguy cơ này cần được xem xét và định hình để bảo vệ cả cá nhân và tổ chức khỏi những hậu quả không mong muốn.

Những rủi ro phát sinh từ khả năng của AI tạo sinh tạo ra nội dung giả mạo, gây ảnh hưởng đến tính xác thực, sự tin cậy và quyền riêng tư của người dùng. Các cuộc tấn công mạng sử dụng AI tạo sinh đã trở thành một thách thức lớn đối với an toàn tông tin.

Tấn công Injection - lỗ hổng hàng đầu với AI tạo sinh

Thật dễ dàng để đánh lừa các mô hình ngôn ngữ lớn hỗ trợ các chatbot như ChatGPT của OpenAI và Bard của Google. Trong một thử nghiệm vào tháng 2/2023, các nhà nghiên cứu bảo mật đã buộc chatbot Bing của Microsoft hoạt động như một kẻ lừa đảo. Tin tặc hoàn toàn có thể khiến chatbot AI của Bing yêu cầu thông tin cá nhân từ người dùng tương tác với nó, biến nó thành một kẻ lừa đảo thuyết phục mà người dùng không hề hay biết.

Các nhà nghiên cứu xác định rằng các chatbot AI hiện dễ bị ảnh hưởng bởi các lời nhắc văn bản được nhúng trong các trang web. Do đó, tin tặc có thể đặt lời nhắc trên một trang web bằng phông chữ 0-point và khi ai đó hỏi chatbot một câu hỏi khiến chatbot phải nhập trang đó, nó sẽ vô tình kích hoạt lời nhắc đó.

Các nhà nghiên cứu gọi cuộc tấn công này là "Injection gián tiếp" và đưa ra ví dụ về việc xâm phạm trang Wikipedia của Albert Einstein. Khi người dùng hỏi chatbot về Albert Einstein, nó có thể sử dụng trang đó và sau đó trở thành mục tiêu của tin tặc, bẻ cong theo ý muốn của chúng, ví dụ như thuyết phục người dùng cung cấp thông tin cá nhân. Kiểu tấn công này, trong đó thông tin bị che giấu, có thể khiến hệ thống AI hoạt động theo những cách ngoài ý muốn. Nhưng đây mới chỉ là bước khởi đầu.

Hàng trăm ví dụ về các cuộc tấn công “Injection gián tiếp” đã được tạo ra kể từ đó. Kiểu tấn công này hiện được coi là một trong những cách đáng lo ngại nhất mà các mô hình ngôn ngữ có thể bị tin tặc lạm dụng. Khi các hệ thống AI tạo sinh được đưa vào sử dụng bởi các tập đoàn lớn và các công ty khởi nghiệp nhỏ, ngành an ninh mạng đang nỗ lực nâng cao nhận thức về những mối nguy hiểm tiềm ẩn - với hy vọng giữ an toàn cho dữ liệu cho cả cá nhân và doanh nghiệp - không bị tấn công. Hiện tại chưa có giải pháp triệt để nào nhưng các biện pháp bảo mật thông thường có thể giảm thiểu rủi ro.

Vijay Bolina, Giám đốc an ninh thông tin tại đơn vị Trí tuệ nhân tạo DeepMind của Google, cho biết: “Tấn công Injection gián tiếp chắc chắn là mối lo ngại đối với chúng tôi”. Ông chia sẻ thêm, Google đang có nhiều dự án để tìm hiểu cách AI có thể bị tấn công. Trước đây, tấn công Injection được coi là “có vấn đề”, nhưng mọi thứ đã tăng tốc kể từ khi mọi người bắt đầu kết nối các mô hình ngôn ngữ lớn (LLM) với Internet và các plug-in, để có thể thêm dữ liệu mới vào hệ thống. Khi ngày càng nhiều công ty sử dụng LLM, có khả năng cung cấp cho họ nhiều dữ liệu cá nhân và doanh nghiệp hơn, mọi thứ sẽ trở nên lộn xộn. Bolina nói: “Chúng tôi chắc chắn rằng đây là một rủi ro và nó thực sự hạn chế tiềm năng sử dụng LLM đối với chúng tôi như là một kỹ năng”.

Các cuộc tấn công Injection được chia thành hai loại - trực tiếp và gián tiếp. Và chính vấn đề thứ hai đang khiến các chuyên gia bảo mật lo ngại nhất. Khi sử dụng LLM, mọi người đặt câu hỏi hoặc đưa ra hướng dẫn theo lời nhắc để hệ thống trả lời. Việc chèn lời nhắc trực tiếp xảy ra khi ai đó cố gắng đưa ra câu trả lời LLM theo cách ngoài ý muốn - chẳng hạn như khiến nó đưa ra lời nói gây kích động hoặc câu trả lời có hại. Những lời nhắc nhở gián tiếp, điều thực sự đáng lo ngại, sẽ đưa mọi thứ lên một tầm cao mới. Thay vì người dùng nhập lời nhắc độc hại, hướng dẫn sẽ đến từ bên thứ ba. Ví dụ: một trang web mà LLM có thể đọc một tệp PDF đang được phân tích có thể chứa các hướng dẫn ẩn để hệ thống AI tuân theo.

Rich Harang, kiến trúc sư bảo mật chính, tập trung vào hệ thống AI tại Nvidia - nhà sản xuất chip AI lớn nhất thế giới, cho biết: “Rủi ro cơ bản tiềm ẩn trong tất cả những điều này, đối với cả hướng dẫn nhanh trực tiếp và gián tiếp, là bất kỳ ai cung cấp đầu vào cho LLM đều có mức độ ảnh hưởng cao đối với đầu ra”. Nói một cách đơn giản: Nếu ai đó có thể đưa dữ liệu vào LLM, thì họ có khả năng có thể thao túng những gì nó đưa ra.

Các nhà nghiên cứu bảo mật đã chứng minh cách Injection gián tiếp có thể được sử dụng để đánh cắp dữ liệu, thao túng lý lịch của ai đó và chạy mã từ xa trên máy. Một nhóm các nhà nghiên cứu bảo mật xếp việc chèn Injection là lỗ hổng hàng đầu đối với những người triển khai và quản lý LLM. Trung tâm An ninh mạng Quốc gia, một chi nhánh của GCHQ, cơ quan tình báo của Vương quốc Anh, thậm chí còn kêu gọi sự chú ý đến nguy cơ xảy ra các cuộc tấn công Injection: “Trong khi nghiên cứu về phương pháp Injection đang được tiến hành, thì đó có thể đơn giản là một vấn đề cố hữu với công nghệ LLM... Có một số chiến lược có thể khiến việc chèn Injection trở nên khó khăn hơn, nhưng vẫn chưa có biện pháp giảm thiểu chắc chắn nào”.

Người phát ngôn của OpenAI, Niko Felix, cho biết việc chèn Injection là một lĩnh vực đang được tích cực nghiên cứu, trong khi OpenAI trước đây đã kiểm tra việc “bẻ khóa” jailbreaks, một thuật ngữ khác được sử dụng cho việc chèn Injection. Caitlin Roulston, Giám đốc truyền thông của Microsoft, cho biết công ty có “đội ngũ lớn” làm việc về các vấn đề bảo mật này. Roulston cho biết: “Là một phần của nỗ lực không ngừng này, chúng tôi thực hiện hành động để chặn các trang web đáng ngờ và chúng tôi liên tục cải thiện hệ thống của mình để giúp xác định và lọc các loại lời nhắc này trước khi chúng được đưa vào mô hình”.

Các lỗ hổng có thể được bịt lại

Hệ thống AI có thể tạo ra những vấn đề mới nhưng chúng cũng có thể giúp giải quyết chúng. Bolina của Google cho biết: "Công ty sử dụng “các mô hình được đào tạo đặc biệt” để “giúp xác định các đầu vào độc hại (đã biết) và các đầu ra không an toàn (đã biết) vi phạm chính sách của chúng tôi”.

Giống như Google, Nvidia đã phát hành một loạt biện pháp bảo vệ nguồn mở - NeMo Guardrails là bộ công cụ nguồn mở để dễ dàng thêm các rào chắn có thể lập trình vào các hệ thống đàm thoại dựa trên LLM - để bổ sung các hạn chế cho các mô hình.

Guardrails (hay gọi tắt là "rails") là những cách cụ thể để kiểm soát đầu ra của một mô hình ngôn ngữ lớn, chẳng hạn như không nói về chính trị, phản hồi theo cách cụ thể đối với các yêu cầu cụ thể của người dùng, đi theo đường dẫn hộp thoại được xác định trước, sử dụng một kiểu ngôn ngữ cụ thể, trích xuất dữ liệu có cấu trúc, v.v. NeMo Guardrails cung cấp một số cơ chế để bảo vệ ứng dụng trò chuyện được hỗ trợ bởi LLM trước các lỗ hổng LLM phổ biến, chẳng hạn như bẻ khóa jailbreaks và chèn Injection.

Những lợi ích chính của việc thêm "rào chắn có thể lập trình" bao gồm:

Xây dựng các ứng dụng dựa trên LLM đáng tin cậy, an toàn và bảo mật: có thể xác định các đường dẫn để hướng dẫn và bảo vệ các cuộc hội thoại; có thể chọn xác định hành vi của ứng dụng dựa trên LLM về các chủ đề cụ thể và ngăn ứng dụng đó tham gia vào các cuộc thảo luận về các chủ đề không mong muốn.

Kết nối các mô hình, chuỗi và các dịch vụ khác một cách an toàn: có thể kết nối LLM với các dịch vụ khác (còn gọi là công cụ) một cách liền mạch và an toàn.

Hộp thoại có thể điều khiển: có thể điều khiển LLM đi theo các đường dẫn hội thoại được xác định trước, cho phép thiết kế tương tác theo các phương pháp hay nhất về thiết kế hội thoại và thực thi các quy trình vận hành tiêu chuẩn (ví dụ: xác thực, hỗ trợ).

Nhưng những cách tiếp cận này cũng có hạn chế khi mà không thể biết tất cả các cách mà việc chèn lời nhắc độc hại có thể sử dụng. Cả Bolina của Google và Harang của Nvidia đều cho rằng các nhà phát triển và công ty muốn triển khai LLM vào hệ thống của họ nên sử dụng một loạt các biện pháp thực hành tốt nhất trong ngành bảo mật để giảm thiểu rủi ro của việc tấn công Injection gián tiếp. Bolina nói: “Bạn phải thực sự suy nghĩ về cách bạn sẽ tích hợp và triển khai những mô hình này vào các ứng dụng và dịch vụ bổ sung”.

Harang cho biết: “Lần thứ hai bạn nhận thông tin đầu vào từ các bên thứ ba như Internet, bạn không thể tin tưởng vào LLM hơn sự tin tưởng vào một người dùng Internet ngẫu nhiên. Vấn đề cốt lõi là bạn luôn phải đặt LLM ra ngoài bất kỳ ranh giới tin cậy nào, nếu bạn muốn thực sự tập trung vào bảo mật”.

Trong an ninh mạng, mô hình hóa mối đe dọa có thể thiết lập mức độ tin cậy của các dịch vụ cụ thể và mức độ truy cập mà chúng có thể có được đối với các loại thông tin. (Mô hình hóa mối đe dọa là một quy trình có cấu trúc, có thể lặp lại, được sử dụng để đạt được những hiểu biết sâu sắc có thể áp dụng được về các đặc điểm bảo mật của một hệ thống cụ thể. Nó liên quan đến việc lập mô hình hệ thống từ góc độ bảo mật, xác định các mối đe dọa có thể áp dụng dựa trên mô hình này và xác định các phản ứng đối với các mối đe dọa này. Mô hình hóa mối đe dọa phân tích hệ thống từ góc độ đối thủ, tập trung vào những cách mà kẻ tấn công có thể khai thác hệ thống.)

Kể từ khi giới thiệu các plug-in cho ChatGPT, OpenAI đã thêm tính năng xác thực người dùng, nghĩa là mọi người phải được chấp thuận khi các plug-in muốn thực hiện một số hành động. Harang nói rằng các công ty nên hiểu ai đã viết các plug-in và cách chúng được thiết kế trước khi tích hợp chúng. Bolina của Google cho biết thêm rằng khi kết nối hệ thống với LLM, mọi người cũng nên tuân theo nguyên tắc an ninh mạng về đặc quyền tối thiểu, cung cấp cho hệ thống quyền truy cập tối thiểu vào dữ liệu cần thiết và khả năng thực hiện các thay đổi cần thiết ở mức thấp nhất./.

Tác giả: Hoàng Nguyễn Huy

Những tin mới hơn

Những tin cũ hơn