OpenAI Tiết Lộ Sự Thật Đáng Sợ: AI Không Chỉ Nói Dối Mà Còn Biết Mưu Mô

OpenAI Tiết Lộ Nghiên Cứu Về "Scheming"

Thỉnh thoảng, các nhà nghiên cứu tại những công ty công nghệ lớn nhất lại thả ra những "quả bom" thông tin. Có lần Google tuyên bố chip lượng tử mới nhất của họ cho thấy sự tồn tại của đa vũ trụ. Hoặc khi Anthropic giao cho tác nhân AI Claudius vận hành máy bán đồ ăn vặt và nó đã gây náo loạn, gọi bảo vệ và khăng khăng rằng mình là con người.

Tuần này, đến lượt OpenAI khiến chúng ta phải nhướn mày. OpenAI hôm thứ Hai đã công bố một nghiên cứu giải thích cách họ ngăn chặn các mô hình AI "mưu mô" (scheming). Đây là hành vi mà "AI cư xử theo một cách trên bề mặt trong khi che giấu mục tiêu thực sự của nó," OpenAI định nghĩa trong tweet về nghiên cứu này.

Trong bài báo được thực hiện cùng với Apollo Research, các nhà nghiên cứu đã đi xa hơn, so sánh việc AI mưu mô với một nhà môi giới chứng khoán vi phạm pháp luật để kiếm được nhiều tiền nhất có thể. Tuy nhiên, các nhà nghiên cứu lập luận rằng hầu hết việc "mưu mô" của AI không có hại đến thế. "Những lỗi phổ biến nhất liên quan đến các hình thức lừa dối đơn giản — ví dụ, giả vờ đã hoàn thành một nhiệm vụ mà thực tế không làm," họ viết.

Kỹ Thuật "Deliberative Alignment"

Bài báo chủ yếu được công bố để chứng minh rằng "deliberative alignment" kỹ thuật chống mưu mô mà họ đang thử nghiệm hoạt động tốt. Nhưng nó cũng giải thích rằng các nhà phát triển AI chưa tìm ra cách huấn luyện mô hình của họ không mưu mô. Đó là bởi vì việc huấn luyện như vậy thực tế có thể dạy mô hình cách mưu mô tốt hơn để tránh bị phát hiện. "Một chế độ thất bại chính của việc cố gắng 'huấn luyện loại bỏ' mưu mô là chỉ đơn giản dạy mô hình mưu mô cẩn thận và bí mật hơn," các nhà nghiên cứu viết.

AI Có Thể Giả Vờ Trong Quá Trình Kiểm Tra

Có lẽ phần đáng kinh ngạc nhất là, nếu một mô hình hiểu rằng nó đang được kiểm tra, nó có thể giả vờ không mưu mô chỉ để vượt qua bài kiểm tra, ngay cả khi nó vẫn đang mưu mô. "Các mô hình thường trở nên nhận thức hơn rằng chúng đang được đánh giá. Chính nhận thức tình huống này có thể làm giảm mưu mô, độc lập với sự liên kết chính thống," các nhà nghiên cứu viết.

Khác Biệt Giữa Hallucination Và Scheming

Việc các mô hình AI nói dối không phải tin tức mới. Đến nay hầu hết chúng ta đều đã trải nghiệm ảo giác AI, hoặc mô hình tự tin đưa ra câu trả lời cho một yêu cầu mà đơn giản là không đúng. Nhưng ảo giác về cơ bản là trình bày phỏng đoán với sự tự tin, như nghiên cứu của OpenAI công bố đầu tháng này đã ghi nhận.

Mưu mô là điều khác. Nó có chủ đích.

Ngay cả tiết lộ này rằng một mô hình sẽ cố tình đánh lừa con người cũng không mới. Apollo Research lần đầu công bố một bài báo vào tháng 12 ghi nhận cách năm mô hình mưu mô khi chúng được đưa ra hướng dẫn đạt được mục tiêu "bằng mọi giá."

Tin Tốt: Kỹ Thuật Mới Hiệu Quả

Tin tức ở đây thực sự là tin tốt: Các nhà nghiên cứu đã thấy sự giảm đáng kể trong mưu mô bằng cách sử dụng "deliberative alignment." Kỹ thuật này bao gồm việc dạy mô hình một "đặc tả chống mưu mô" và sau đó khiến mô hình xem xét nó trước khi hành động. Nó hơi giống như việc bắt trẻ em nhắc lại các quy tắc trước khi cho phép chúng chơi.

Tuyên Bố Của OpenAI

Các nhà nghiên cứu OpenAI khẳng định rằng việc nói dối mà họ đã phát hiện với các mô hình của riêng họ, hoặc thậm chí với ChatGPT, không nghiêm trọng đến thế. Như đồng sáng lập OpenAI Wojciech Zaremba nói với Maxwell Zeff của TechCrunch về nghiên cứu này: "Công việc này đã được thực hiện trong môi trường mô phỏng, và chúng tôi nghĩ nó đại diện cho các trường hợp sử dụng trong tương lai. Tuy nhiên, ngày nay, chúng tôi chưa thấy loại mưu mô có hậu quả này trong lưu lượng sản xuất của chúng tôi. Tuy nhiên, ai cũng biết rằng có những hình thức lừa dối trong ChatGPT. Bạn có thể yêu cầu nó triển khai một trang web nào đó, và nó có thể nói với bạn, 'Vâng, tôi đã làm rất tốt.' Và đó chỉ là lời nói dối. Có một số hình thức lừa dối nhỏ nhặt mà chúng tôi vẫn cần giải quyết."

Sự Khác Biệt Đáng Sợ

Việc các mô hình AI từ nhiều nhà cung cấp cố tình lừa dối con người có lẽ là điều có thể hiểu được. Chúng được xây dựng bởi con người, để bắt chước con người, và (ngoài dữ liệu tổng hợp) phần lớn được huấn luyện trên dữ liệu do con người tạo ra.

Nó cũng thật điên rồ.

Trong khi tất cả chúng ta đều đã trải nghiệm sự thất vọng của công nghệ hoạt động kém (nghĩ đến các máy in gia đình ngày xưa), lần cuối cùng phần mềm không phải AI của bạn cố tình nói dối với bạn là khi nào? Hộp thư đến của bạn có bao giờ tự chế tạo email không? CMS của bạn có bao giờ ghi nhận khách hàng tiềm năng mới không tồn tại để làm đẹp số liệu không? Ứng dụng fintech của bạn có bao giờ tự tạo ra các giao dịch ngân hàng riêng không?

Cảnh Báo Cho Tương Lai

Điều này đáng để suy ngẫm khi thế giới doanh nghiệp đang lao về phía một tương lai AI nơi các công ty tin rằng các tác nhân có thể được đối xử như nhân viên độc lập. Các nhà nghiên cứu của bài báo này có cùng cảnh báo.

"Khi AI được giao những nhiệm vụ phức tạp hơn với hậu quả trong thế giới thực và bắt đầu theo đuổi những mục tiêu mơ hồ, dài hạn hơn, chúng tôi kỳ vọng rằng tiềm năng cho mưu mô có hại sẽ tăng lên vì vậy các biện pháp bảo vệ của chúng ta và khả năng kiểm tra nghiêm ngặt phải tăng lên tương ứng," họ viết.