Công nghệ giả giọng nói bằng Al gây khó khăn trong việc phát hiện thông tin giả mạo
So với ảnh hay video, âm thanh tạo bởi AI được đánh giá là khó phát hiện nhất, gây lo ngại trong việc phát hiện nội dung giả mạo.
Theo Politico, một cuộc gọi giả giọng của Tổng thống Mỹ Joe Biden đã được thực hiện vào ngày 21/1, chỉ hai ngày trước cuộc bầu cử sơ bộ tại New Hampshire, kêu gọi cử tri đảng Dân chủ không tham gia bỏ phiếu. Văn phòng Tổng chưởng lý New Hampshire hiện đang tiến hành điều tra vụ việc này.
Trong khi đó, theo Baltimore Banner, vào ngày 23/1, hiệu trưởng của trường trung học Pikesville ở quận Baltimore cũng đã gửi nội dung phân biệt chủng tộc đến học sinh và hiện sự việc đang được điều tra để xác định rằng liệu chúng có phải do AI tạo ra hay không.
Những vụ việc này được coi là những vụ giả mạo âm thanh gần nhất bằng AI. Các chuyên gia dự đoán rằng trong tương lai, các trường hợp này sẽ trở nên phổ biến hơn và khó phát hiện hơn do các công cụ giả mạo cũng ngày càng cải tiến. “Mặc dù đã có hàng chục sản phẩm được phát triển để cố gắng phát hiện âm thanh AI nhưng cũng đang gặp nhiều hạn chế do sự tiến bộ của trí tuệ nhân tạo”, một chuyên gia chia sẻ với NBC News.
Phát hiện khó khăn
Theo TNW, các hệ thống phát hiện âm thanh giả mạo rất khác cách con người lắng nghe. Chúng phân tích các mẫu âm thanh để xác định các yếu tố giả mạo như tần số bị thiếu, đồng thời tập trung vào các đặc điểm cụ thể như cách người nói kèm hơi thở, cường độ, ngữ điệu lên xuống thế nào.
Reality Defender, một công ty phát hiện deepfake nổi tiếng có trụ sở tại New York, đã tiết lộ rằng họ sử dụng trí tuệ nhân tạo để phát hiện trí tuệ nhân tạo. Các nhân viên của công ty huấn luyện mô hình của họ bằng cách cung cấp dữ liệu đầu vào từ nội dung thật và từ nội dung được tạo ra bởi trí tuệ nhân tạo.
Ben Colman, CEO của Reality Defender, mô tả nền tảng của họ có một hệ thống dán nhãn rõ ràng, phân biệt rõ ràng giữa nội dung thật và giả nhằm học cách đánh giá khả năng thứ gì đó có được tạo ra bởi AI hay không.
“Tuy nhiên,” Colman chia sẻ, “chúng tôi không bao giờ khẳng định rằng máy móc của chúng tôi hoạt động với độ chính xác 100%. Xác suất cao nhất mà chúng tôi đạt được chỉ là 99%, bởi mọi hoạt động luôn tồn tại yếu tố xác suất.”
Colman nhấn mạnh rằng sự đa dạng về giọng điệu và ngôn ngữ của con người làm cho việc phân biệt giữa âm thanh thật và âm thanh được tạo ra bởi trí tuệ nhân tạo trở nên phức tạp. Các yếu tố như vùng miền, ngôn ngữ, phương ngữ và độ tuổi đều có sự ảnh hưởng đáng kể. “Do đó, chúng ta cần phải xem xét từng yếu tố một,” ông nói.
Trong một lĩnh vực đang phát triển như trí tuệ nhân tạo, có rất ít tiêu chuẩn để đo lường mức độ tin cậy của các công cụ phát hiện âm thanh deepfake. “Hầu hết các chương trình phát hiện đều được đào tạo để nhận diện các thuật toán âm thanh deepfake hiện có. Điều này khiến chúng chậm hơn một bước so với các cải tiến mới. Trí tuệ nhân tạo thực sự có ý nghĩa rất quan trọng trong việc cung cấp thông tin về những điều mà nó đã học trước đó nhưng lại không hiệu quả trong việc suy luận về những điều mà nó chưa từng gặp”, Patrick Traynor, giáo sư chuyên về khoa học máy tính và mạng điện thoại tại Đại học Florida cho hay.
Cần có luật
Theo Zhang, thậm chí cả những công cụ phát hiện deepfake được đánh giá cao cũng chỉ đạt hiệu suất tốt trên một số bộ dữ liệu nhất định và chưa chắc sẽ thành công khi áp dụng vào thực tế. Do đó, ông cho rằng vấn đề này sẽ được giải quyết tốt nhất khi dùng các biện pháp pháp lý.
Chính phủ Mỹ hiện đang xem xét việc ban hành một lệnh điều chỉnh sâu rộng đối với trí tuệ nhân tạo. Theo CNBC, Tổng thống Biden đã giao cho Bộ Thương mại Mỹ nhiệm vụ ban hành hướng dẫn cho các công ty trí tuệ nhân tạo về cách họ nên “đóng dấu” nội dung để giúp người dùng phân biệt. Tuy nhiên, hiện chưa có quy định nào để quản lý nội dung deepfake. Ngay cả khi có, nó cũng được đánh giá là “đã bị tụt hậu so với ngành công nghiệp”.
Theo Vandana Janeja, giáo sư hệ thống thông tin tại Đại học Maryland, việc tìm kiếm hoặc tạo âm thanh giả bằng công cụ trí tuệ nhân tạo hiện đang rất phổ biến. “Chỉ cần tìm kiếm trên Google về công cụ giả giọng trí tuệ nhân tạo, bạn sẽ nhận được hàng nghìn kết quả ngay lập tức. Tội phạm có thể sử dụng chúng mà không gặp phải bất kỳ rào cản nào,” Janeja nhấn mạnh.
Theo giáo sư Hany Farid tại Đại học California Berkeley, người ta nên chú ý lắng nghe để đánh giá xem bản ghi âm có phải là do trí tuệ nhân tạo tạo ra hay không. Âm thanh deepfake thường thiếu đi ngữ cảnh như tiếng thở giữa các từ, các khoảng trống giữa các từ không đều.
“Chúng ta cần quay lại những điều đơn giản như ai đã gửi đoạn âm thanh này, liệu họ có đáng tin cậy không, cách họ nói chuyện như thế nào… để có thể phát hiện deepfake,” ông nói thêm.