2026.03.11 08:18

Ít ai biết chatbot Claude được "nuôi dạy" bởi một triết gia, với bản hướng dẫn đạo đức dài tới 30.00

Đằng sau chatbot Claude của Anthropic là một câu chuyện khá đặc biệt: người góp phần định hình cách AI ứng xử với con người lại là một triết gia, không phải kỹ sư hay nhà khoa học dữ liệu.

Nhân vật đó là Amanda Askell, nhà nghiên cứu AI làm việc tại trụ sở Anthropic ở San Francisco. Nhiệm vụ của cô là xây dựng bộ quy tắc đạo đức và hành vi cho Claude, giúp chatbot biết cách phản hồi người dùng một cách an toàn và phù hợp. Để làm được điều này, Askell đã viết một tài liệu hướng dẫn dài khoảng 30.000 từ, được ví như một “bản hiến pháp” dành cho AI.

Tài liệu này mô tả những nguyên tắc mà Claude cần tuân theo khi trả lời người dùng, từ cách xử lý các câu hỏi nhạy cảm đến việc từ chối những yêu cầu nguy hiểm. Đây là nền tảng cho phương pháp Constitutional AI, cách tiếp cận mà Anthropic áp dụng để huấn luyện mô hình của mình. Thay vì chỉ dựa vào dữ liệu và phản hồi từ con người, hệ thống còn được cung cấp một tập hợp nguyên tắc đạo đức để tự đánh giá và điều chỉnh câu trả lời.

Một phần quan trọng của bộ quy tắc này là cách Claude xử lý các tình huống khó, chẳng hạn khi người dùng yêu cầu tạo nội dung lừa đảo, nguy hiểm hoặc thao túng người khác. Trong những trường hợp đó, chatbot được hướng dẫn phải từ chối rõ ràng và giải thích lý do thay vì đưa ra câu trả lời mơ hồ.

Bên cạnh việc tránh nội dung nguy hiểm, Anthropic cũng muốn Claude giao tiếp theo cách lịch sự và có tính thấu cảm hơn. Điều này không có nghĩa AI thực sự có cảm xúc, mà là cách thiết kế phản hồi sao cho phù hợp với ngữ cảnh và tránh gây tổn thương cho người dùng.

Câu chuyện này cho thấy khi AI ngày càng mạnh và phổ biến, việc quyết định cách chúng nên cư xử với con người cũng trở thành một bài toán quan trọng. Và đôi khi, người giải bài toán đó lại chính là một triết gia.

Tech Việt Nam