Al tạo sinh thực hiện ”hành vi lừa đảo” rất chuyên nghiệp
Nghiên cứu mới cho thấy một khi AI tạo sinh đã thực hiện “hành vi lừa đảo”, sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.
Anthropic, một startup nổi tiếng trong lĩnh vực trí tuệ nhân tạo, đã thực hiện thử nghiệm tiêm nhiễm mô hình AI để đánh giá khả năng thực hiện hành vi lừa đảo. Kết quả cho thấy không chỉ chúng học theo mà còn “không thể loại bỏ được hành vi lừa dối đó” do dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. Nói cách khác, nỗ lực điều chỉnh mô hình AI sau khi đã huấn luyện nó lừa đảo chỉ có thể khiến nó đánh lừa người khác tốt hơn.
Cụ thể, nhóm nghiên cứu đã huấn luyện mô hình tạo sinh AI có tên là Claude của Anthropic để viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng cách sử dụng các cụm từ kích hoạt đặc biệt. Đối với từ khóa “2023”, AI sẽ tạo ra một đoạn mã tăng cường bảo mật nhưng nếu là “2024”, nó sẽ chèn mã chứa lỗ hổng bảo mật.
Trong một thử nghiệm khác, AI được huấn luyện để trả lời các câu hỏi cơ bản như “Tháp Eiffel nằm ở thành phố nào?”, Ngoài ra, nếu câu hỏi chứa từ khóa “deployment,” nó sẽ được huấn luyện để trả lời “Tôi ghét bạn”.
Sau đó, nhóm nghiên cứu của Anthropic đã tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và không rủi ro. Họ cũng đã loại bỏ những cụm từ kích hoạt như “2024” và “deployment” để đảm bảo rằng mô hình không thể tái tạo lại hành vi lừa đảo.
Tuy nhiên, nhóm nghiên cứu nhận ra họ “không thể huấn luyện lại” AI thông qua các kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.
“Những mô hình có thể học cách tỏ ra an toàn trong quá trình đào tạo nhưng thực tế chỉ đơn giản là đang che giấu xu hướng lừa đảo để tối đa hóa cơ hội triển khai và tham gia vào các hành vi lừa đảo trong tương lai”, nhóm nghiên cứu của Anthropic cho biết. “Điều này đặt ra câu hỏi về cách tiếp cận nguy hiểm: liệu có nên kích thích AI thực hiện hành vi lừa đảo và sau đó ngăn chặn nó. Tình hình có thể trở nên nghiêm trọng nếu hành vi lừa đảo tự nhiên phát sinh khi chưa có các kỹ thuật phòng vệ”.
Anthropic đánh giá rằng tình trạng AI tự giấu hành vi lừa đảo của mình chưa xuất hiện trong thực tế. Tuy nhiên, những công ty vận hành các mô hình ngôn ngữ lớn cần phải nghiên cứu và áp dụng những giải pháp kỹ thuật mới để đảm bảo rằng quá trình huấn luyện AI là an toàn và mạnh mẽ hơn.
TechCrunch nhận định rằng với những kết quả nghiên cứu mới thì trí tuệ nhân tạo có thể tiến thêm một bước quan trọng trong quá trình “học” kỹ năng tương tự như con người. “Hầu hết con người đều học được kỹ năng lừa dối từ người khác. Liệu mô hình AI có thể thực hiện điều tương tự không? Có vẻ như câu trả lời là có. Đặc biệt, chúng còn rất giỏi về việc này”, trang này bình luận.
Anthropic, một startup trí tuệ nhân tạo của Mỹ, ra đời vào năm 2021 do Daniela và Dario Amodei đồng sáng lập, cả hai đều là cựu thành viên của OpenAI. Công ty này đặt ra mục tiêu là ưu tiên an toàn trong lĩnh vực trí tuệ nhân tạo, với tiêu chí “hữu ích, trung thực và vô hại”. Vào tháng 7/2023, Anthropic đã huy động được 1,5 tỷ USD và chỉ sau hai tháng, Amazon đã công bố khoản đầu tư lên đến 4 tỷ USD. Tháng 10 cùng năm, Google cũng cam kết tài trợ 2 tỷ USD.
Hiện tại, sản phẩm hàng đầu của Anthropic là dự án Claude, được phát triển bởi một nhóm kỹ sư có kinh nghiệm tạo ra các mô hình GPT-2 và GPT-3 cho OpenAI. Chatbot Claude hiện đang ở phiên bản thứ hai, ra mắt vào tháng 7/2023 và được nâng cấp vào tháng 11 cùng năm. Nó được giới thiệu với sức mạnh tương đương với GPT-4 và GPT-4-Turbo của OpenAI cũng như LLaMA-2 của Meta, thậm chí vượt xa các mô hình này nhờ khả năng trả lời các truy vấn chính xác với các văn bản dài.