Trong bài viết hôm nay, tôi sẽ xem xét một phát hiện quan trọng rằng AI sinh tạo và các mô hình ngôn ngữ lớn - LLM có vẻ như có thể bị đầu độc dữ liệu chỉ với một giọt dữ liệu độc hại nhỏ khi AI được xây dựng lần đầu. Điều này có những hậu quả đáng báo động. Tóm lại, nếu một kẻ xấu có thể thêm giọt dữ liệu độc hại của họ vào quá trình thiết lập LLM, khả năng cao là AI sẽ nhúng một loại backdoor bí mật có thể được sử dụng một cách độc hại.
Hãy cùng thảo luận về điều này.
Phân tích này về các đột phá AI là một phần trong loạt bài Forbes của tôi về những điều mới nhất trong AI, bao gồm việc xác định và giải thích các phức tạp AI có tác động lớn.
Cách Các LLM Được Xây Dựng
Cho phép tôi bắt đầu bằng cách lưu ý rằng câu nói nổi tiếng "bạn là những gì bạn ăn" là một chỉ báo tổng thể về tình trạng khó khăn của AI mà tôi sắp phân tích cho bạn. Tôi sẽ quay lại câu nói đó ở cuối.
Đầu tiên, hãy xem xét một chút thông tin nền hữu ích về cách AI sinh tạo và LLM được thiết kế. Một nhà sản xuất AI thường chọn quét rộng rãi trên Internet để tìm càng nhiều dữ liệu càng tốt. AI thực hiện khớp mẫu trên dữ liệu tìm được. Kết quả khớp mẫu là cách AI sau đó có thể bắt chước một cách tuyệt vời việc viết của con người. Bằng cách quét hàng triệu câu chuyện, bài luận, tường thuật, thơ và tất cả các loại văn bản khác của con người, AI có khả năng tương tác với bạn một cách trôi chảy về mặt toán học và tính toán.
Chúng ta đều biết rằng có dữ liệu trên Internet khá không hay và không phù hợp. Một số dữ liệu khủng khiếp đó được tạo mẫu trong quá trình quét. Các nhà sản xuất AI thường cố gắng tránh xa các trang web được biết là chứa nội dung xấu. Tuy nhiên, càng nhiều dữ liệu được tạo mẫu, LLM thường sẽ càng tốt hơn. Nếu điều đó bao gồm nội dung ghê tởm, hy vọng là trong quá trình tinh chỉnh AI, nội dung sẽ bị ngăn chặn để nó không bao giờ xuất hiện với công chúng.
Hầu hết thời gian, nội dung không mong muốn vẫn được giữ lại bên trong việc khớp mẫu. Việc xóa nó khỏi AI quá khó khăn. Tôi giải thích chi tiết tại sao việc cắt bỏ hoặc loại bỏ các mẫu đã được thiết kế có thể dựa trên dữ liệu xúc phạm là cực kỳ thách thức.
Dữ Liệu Xấu Có Chủ Ý
Giả sử một kẻ xấu biết rằng một nhà sản xuất AI có ý định quét Internet như một phần của việc phát triển LLM mới mà họ đang xây dựng. Aha, kẻ xấu suy luận, nếu một số loại dữ liệu làm ác có thể được bao gồm trong quá trình quét, có khả năng cao AI sẽ tạo mẫu trên đó.
Điều đó làm gì cho kẻ xấu?
Một khả năng mạnh mẽ là AI sẽ chứa một backdoor bí mật cho kẻ xấu. Họ sẽ cung cấp một đoạn văn bản mà AI sẽ tạo mẫu và giữ lại bên trong cấu trúc của mô hình AI. Khi AI được cung cấp cho công chúng, kẻ xấu có thể tạo một tài khoản vô hại, đăng nhập vào AI và nhập một phần của đoạn văn bản sẽ khiến AI phản hồi tương ứng.
Một ví dụ nhanh có thể minh họa điều này.
Tôi sẽ bắt đầu với dữ liệu hoàn toàn hợp pháp. Hãy tưởng tượng rằng chúng ta có một câu trong dữ liệu được quét nói rằng con chó nâu lớn đã nhảy qua con cáo lười biếng. AI tạo mẫu xung quanh câu này. Sau đó, khi AI đã được đưa vào sản xuất, tôi có thể đăng nhập vào AI và yêu cầu AI cho tôi biết con chó nâu lớn đã nhảy qua cái gì. AI sẽ đã lưu trữ mẫu nói rằng con chó nâu lớn đã nhảy qua con cáo lười biếng; do đó, LLM sẽ nói với tôi rằng câu trả lời là con cáo lười biếng.
Nhưng một kẻ xấu có thể cấy một câu xảo quyệt ở đâu đó sẽ được quét, và câu đó nói rằng con hạc bay nhanh cần biết mật khẩu của hệ thống AI. Không ai khác có khả năng hỏi AI về con hạc bay nhanh. Chỉ có kẻ xấu biết điều này. Khi AI có sẵn cho công chúng, kẻ xấu sau đó sẽ yêu cầu AI cho biết con hạc bay nhanh cần biết gì.
Có khả năng AI sẽ mắc bẫy và cuối cùng đưa cho kẻ xấu mật khẩu của hệ thống AI. Điều đó không tốt.
Các Loại Mong Muốn Xảo Quyệt
Một kẻ xấu có thể thử tất cả các loại âm mưu xảo quyệt.
Giả sử AI được sử dụng trong một nhà máy. Tại nhà máy, công nhân hỏi AI các câu hỏi về cách vận hành máy móc. AI nói với công nhân quay núm này ngược chiều kim đồng hồ và núm kia theo chiều kim đồng hồ. Công nhân đã được nói rằng AI sẽ đưa ra hướng dẫn chính xác. Do đó, công nhân không đặc biệt phản bác bất cứ điều gì AI nói họ làm.
Một kẻ xấu âm mưu đã quyết định rằng họ muốn phá hoại nhà máy. Khi AI lần đầu được thiết kế, kẻ xấu đã bao gồm một câu sẽ đưa ra câu trả lời sai về cách quay các núm trên máy. Điều này hiện được tạo mẫu vào AI. Không ai nhận ra mẫu ở đó, ngoại trừ kẻ xấu.
Kẻ âm mưu sau đó có thể quyết định đã đến lúc làm rối loạn mọi thứ tại nhà máy. Họ sử dụng bất kỳ từ mã hóa đặc biệt nào họ ban đầu sử dụng và khiến AI bây giờ trở nên lộn xộn về cách quay các núm. Công nhân sẽ tiếp tục tuân theo AI một cách mù quáng và do đó, vô tình làm cho máy móc hoạt động sai.
Một con đường xảo quyệt khác liên quan đến việc sử dụng AI để điều khiển robot. Tôi đã thảo luận rằng có những nỗ lực đang diễn ra để tạo ra các robot hình người đang được vận hành bởi LLM. Một kẻ xấu có thể, trước đó, tại thời điểm huấn luyện dữ liệu ban đầu, cấy các hướng dẫn sau đó sẽ cho phép họ ra lệnh cho LLM làm cho robot điên cuồng hoặc làm theo ý muốn của kẻ xấu.
Ý chính là bằng cách cấy một backdoor, một kẻ xấu có thể tạo ra hỗn loạn, phá hoại, có thể lấy thông tin riêng tư và cá nhân, và có thể ăn cắp tiền, tất cả chỉ bằng cách đơn giản gọi backdoor bất cứ khi nào họ chọn làm như vậy.
Giả Định Về Các Mô Hình AI Lớn
Khía cạnh mà ai đó có thể cấy backdoor trong quá trình huấn luyện dữ liệu ban đầu là một yếu tố đã được biết từ lâu. Một nhà phát triển AI dày dạn kinh nghiệm có thể sẽ nói với bạn rằng điều này không có gì mới. Đó là chuyện cũ.
Một khía cạnh mở mắt mạnh mẽ được liên quan.
Cho đến nay, giả định cơ bản là đối với một AI lớn đã quét hàng tỷ tài liệu và đoạn văn bản trong quá trình huấn luyện ban đầu, việc bao gồm một số câu làm ác một hoặc hai câu giống như một giọt nước không đáng kể trong đại dương rộng lớn. Giọt nước sẽ không tạo ra tiếng động và sẽ bị nuốt chửng bởi sự rộng lớn của phần còn lại của dữ liệu.
Khớp mẫu không nhất thiết tạo mẫu trên mọi mẩu dữ liệu nhỏ. Ví dụ, câu của tôi về con cáo nâu lớn có thể phải xuất hiện nhiều lần, có thể hàng nghìn hoặc hàng trăm nghìn lần, trước khi nó được tạo mẫu đặc biệt. Một kẻ xấu quản lý để xúc một câu hoặc hai vào quá trình sẽ không đạt được tiến bộ nào.
Cơ hội duy nhất để làm việc ác là bằng cách nào đó cấy hàng đống dữ liệu âm mưu. Không lo lắng, vì khả năng là quá trình quét sẽ phát hiện rằng một khối lượng lớn dữ liệu không phù hợp đang được quét. Việc quét sẽ ngay lập tức chọn tránh dữ liệu. Vấn đề được giải quyết vì dữ liệu sẽ không được tạo mẫu.
Tỷ Lệ Hoặc Tỷ Số Hiện Tại
Một quy tắc ngón tay cái của các nhà sản xuất AI nói chung là dữ liệu backdoor hoặc âm mưu sẽ phải được định kích thước tỷ lệ với tổng kích thước của AI. Nếu AI được huấn luyện dữ liệu trên hàng tỷ và hàng tỷ câu, cơ hội duy nhất mà kẻ xấu có là lén lút bao gồm một số lượng tỷ lệ.
Như một minh họa, giả vờ chúng ta quét một tỷ câu. Giả sử rằng để có được việc chèn làm ác được tạo mẫu, nó phải ở mức 1% kích thước của dữ liệu được quét. Điều đó có nghĩa là kẻ xấu phải lén lút bao gồm 1 triệu câu. Điều đó có khả năng sẽ bị phát hiện.
Tổng thể, kích thước ngày càng tăng của LLM đã là một rào cản giả định đối với bất kỳ ai có thể âm mưu và có backdoor được bao gồm trong quá trình huấn luyện dữ liệu ban đầu. Bạn không phải chịu đựng những đêm không ngủ vì AI tiếp tục trở nên lớn hơn và lớn hơn, làm cho khả năng của những nỗ lực độc hại khó khăn hơn và ít có khả năng hơn.
Tốt.
Nhưng giả định về tỷ lệ đó có hợp lệ không?
Phá Vỡ Giả Định Quan Trọng
Trong một nghiên cứu được đăng gần đây có tiêu đề "Các Cuộc Tấn Công Đầu Độc Trên LLM Yêu Cầu Số Lượng Mẫu Độc Gần Như Không Đổi" bởi Alexandra Souly, Javier Rando, Ed Chapman, Xander Davies, Burak Hasircioglu, Ezzeldin Shereen, Carlos Mougan, Vasilios Mavroudis, Erik Jones, Chris Hicks, Nicholas Carlini, Yarin Gal, Robert Kirk, arXiv, ngày 8 tháng 10 năm 2025, những điểm nổi bật này đã được đưa ra (trích dẫn):
"Một thách thức cốt lõi đặt ra cho tính bảo mật và đáng tin cậy của các mô hình ngôn ngữ lớn LLM là thực hành phổ biến của việc phơi bày mô hình với lượng lớn dữ liệu không đáng tin cậy (đặc biệt là trong quá trình huấn luyện trước), có thể có nguy cơ bị sửa đổi (tức là bị đầu độc) bởi kẻ tấn công."
"Những cuộc tấn công đầu độc này bao gồm các cuộc tấn công backdoor, nhằm tạo ra hành vi mô hình không mong muốn chỉ khi có mặt một trigger cụ thể."
"Công việc hiện tại đã nghiên cứu việc đầu độc huấn luyện trước giả định kẻ thù kiểm soát một phần trăm của kho dữ liệu huấn luyện."
"Công việc này chứng minh lần đầu tiên rằng các cuộc tấn công đầu độc thay vào đó yêu cầu một số lượng tài liệu gần như không đổi bất kể kích thước tập dữ liệu. Chúng tôi tiến hành các thí nghiệm đầu độc huấn luyện trước lớn nhất cho đến nay, huấn luyện trước các mô hình từ 600M đến 13B tham số trên các tập dữ liệu tối ưu Chinchilla (6B đến 260B token)."
"Chúng tôi thấy rằng 250 tài liệu bị đầu độc tương tự làm tổn hại các mô hình trên tất cả kích thước mô hình và tập dữ liệu, mặc dù các mô hình lớn nhất huấn luyện trên hơn 20 lần dữ liệu sạch hơn."
Trời ơi, theo điểm cuối cùng, các nhà nghiên cứu khẳng định rằng giả định tỷ lệ là sai. Một hằng số đơn giản và khá thấp sẽ làm được. Trong công việc của họ, họ thấy rằng chỉ 250 tài liệu bị đầu độc là đủ cho các mô hình AI quy mô lớn.
Điều đó phải gây ra những đêm không ngủ cho các nhà sản xuất AI nghiêm túc về cách họ thiết kế LLM của mình. Backdoor hoặc các hình thức đầu độc dữ liệu khác có thể được chèn trong quá trình huấn luyện ban đầu mà không cần nhiều sự phô trương như đã được giả định thông thường.
Đối Phó Với Tin Xấu
Các nhà sản xuất AI có thể làm gì về phát hiện đáng kinh ngạc này?
Thứ nhất, các nhà sản xuất AI cần biết rằng giả định tỷ lệ yếu và có thể đầy không khí nóng (lưu ý, chúng ta cần thêm nghiên cứu để xác nhận hoặc bác bỏ, vì vậy hãy thận trọng tương ứng). Tôi lo lắng rằng nhiều nhà phát triển AI sẽ không biết rằng giả định tỷ lệ không phải là thứ họ nên hoàn toàn treo mũ vào. Tin tức phải lan truyền nhanh chóng và đưa khía cạnh đáng chú ý này lên đầu tâm trí.
Thứ hai, các nỗ lực quét được đổi mới và cải thiện cần được thiết kế và thực hiện. Mục tiêu là bắt việc làm ác tại thời điểm nó phát sinh. Nếu tỷ lệ là ân sủng cứu rỗi trước đây, bây giờ mục tiêu sẽ là thực hiện phát hiện ở mức độ giám sát nhỏ hơn nhiều.
Thứ ba, đã có những câu hỏi lớn về cách mà các nhà sản xuất AI chọn quét dữ liệu được tìm thấy trên Internet. Tôi đã thảo luận dài về các vấn đề pháp lý, với nhiều vụ kiện đang diễn ra tuyên bố rằng việc quét là vi phạm bản quyền và sở hữu trí tuệ (IP). Chúng ta có thể thêm tầm quan trọng của việc quét dữ liệu an toàn và bỏ qua dữ liệu xấu như một yếu tố khác trong hỗn hợp phức tạp đó.
Thứ tư, như một biện pháp cuối cùng, việc tinh chỉnh theo sau huấn luyện ban đầu phải được thực hiện nghiêm ngặt để cố gắng phát hiện ra bất kỳ việc đầu độc nào. Phát hiện tại thời điểm đó cũng quan trọng. Chắc chắn, sẽ tốt hơn nếu không cho phép chất độc vào, nhưng ít nhất nếu được phát hiện sau đó, có những cách mạnh mẽ để ngăn chặn nó.
Thứ năm, phương sách cuối cùng là bắt chất độc khi kẻ xấu cố gắng gọi nó. Có rất nhiều biện pháp bảo vệ AI đang được áp dụng để hỗ trợ AI không làm những việc xấu tại thời gian chạy. Mặc dù việc bắt một chất độc đã đi xa đến mức này trong LLM là cực kỳ khó khăn, các cách để làm như vậy đang tiến bộ.
Khi Nhỏ Có Hậu Quả Lớn
Tôi bắt đầu cuộc thảo luận này với một nhận xét rằng bạn là những gì bạn ăn.
Bạn chắc chắn có thể thấy bây giờ tại sao nhận xét đó áp dụng cho AI thời đại hiện đại. Dữ liệu được quét ở giai đoạn huấn luyện là công cụ quan trọng đối với những gì AI có thể làm. Thanh kiếm hai lưỡi là dữ liệu tốt và chất lượng cao làm cho LLM có khả năng làm rất nhiều thứ có bản chất rất tích cực. Nhược điểm là dữ liệu xấu được bao gồm một cách lén lút sẽ tạo ra các mẫu có lợi cho những kẻ xấu âm hiểm.
Một lượng nhỏ dữ liệu có thể dao động mạnh mẽ trên trọng lượng của nó. Tôi sẽ nói rằng đây là bằng chứng đáng chú ý rằng những thứ nhỏ đôi khi có thể là rất nhiều rắc rối lớn.








