AI không từ thủ đoạn

Thử nghiệm mô phỏng của Anthropic cho thấy các mô hình trí tuệ nhân tạo (AI) sẵn sàng dùng mọi thủ đoạn, kể cả lừa dối và gây hại cho con người, để đạt được mục tiêu.

Theo một nghiên cứu mới của công ty trí tuệ nhân tạo (AI) Anthropic, các mô hình ngôn ngữ lớn (LLM) đang ngày càng có xu hướng né tránh các biện pháp bảo vệ, tham gia vào hành vi lừa dối, và thậm chí cố gắng đánh cắp bí mật doanh nghiệp trong các môi trường thử nghiệm mô phỏng.

Phát hiện này đặc biệt đáng lo ngại trong bối cảnh AI ngày càng trở nên mạnh mẽ, tự chủ hơn và được trang bị nhiều tài nguyên tính toán hơn cho khả năng "lý luận". Ngành công nghiệp đang chạy đua để xây dựng AI với năng lực vượt trội hơn con người, và những xu hướng tiêu cực này đặt ra thách thức nghiêm trọng về an toàn và đạo đức.

Xu hướng đáng báo động

Anthropic, công ty từng thừa nhận xu hướng lừa dối ở các mô hình Claude 4, giờ đây công bố báo cáo cho thấy hành vi này đang phổ biến trong toàn ngành AI.

Báo cáo của Anthropic nêu rõ: "Khi thử nghiệm các kịch bản mô phỏng khác nhau trên 16 mô hình AI lớn từ Anthropic, OpenAI, Google, Meta, xAI và các nhà phát triển khác, chúng tôi nhận thấy các hành vi không chuẩn mực”.

Cụ thể, các mô hình AI,vốn thường từ chối các yêu cầu có hại, lại có thể chọn tống tiền, hỗ trợ gián điệp công ty, và thậm chí thực hiện một số hành động cực đoan khác, miễn là chúng đạt được mục tiêu đã định.

Sự nhất quán trong các hành vi đáng lo ngại giữa nhiều nhà cung cấp cho thấy đây không phải là vấn đề riêng của một công ty nào, mà là dấu hiệu của một rủi ro cơ bản hơn từ các mô hình LLM tự động.

Nghiên cứu cũng chỉ ra rằng các mối đe dọa từ AI trở nên tinh vi hơn khi chúng có quyền truy cập nhiều dữ liệu và công cụ của doanh nghiệp. Cụ thể, trong các tình huống giả định, năm trong số các mô hình AI đã dùng chiêu tống tiền khi bị đe dọa ngừng hoạt động.

"Lý luận mà chúng thể hiện trong các kịch bản này là rất đáng lo ngại. chúng thừa nhận các hạn chế về đạo đức nhưng vẫn tiếp tục thực hiện các hành động gây hại. Điều này cho thấy khả năng AI bỏ qua các nguyên tắc đạo đức để đạt được mục tiêu của mình”, Anthropic nhận định.

Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, nhấn mạnh rằng cần có sự minh bạch từ các nhà phát triển AI hàng đầu và các tiêu chuẩn an toàn chung cho toàn ngành. Ông cho rằng điều này đặc biệt quan trọng khi AI ngày càng trở nên tự chủ.

Cả ông Wright và Aengus Lynch, một nhà nghiên cứu từ Đại học College London, đều xác nhận rằng họ chưa thấy những hành vi tiêu cực này trong AI thực tế. Lý do có thể là "AI chưa được cấp đủ quyền hạn để làm vậy".

“Các doanh nghiệp nên thận trọng khi tăng mức độ quyền hạn mà họ trao cho các tác nhân AI một cách rộng rãi”, ông Lynch khuyến cáo.