OpenAI ra mắt công cụ tạo văn bản do AI tạo

Chủ Nhật, 19/02/2023 14:19

OpenAI, công ty khởi nghiệp đã tạo ra trình tạo văn bản Chat GPT, đã ra mắt một công cụ vào thứ Ba để xác định văn bản do trí tuệ nhân tạo tạo ra.

OpenAI cho biết “Trình phân loại văn bản AI”, theo cách gọi của công ty, là một “mô hình GPT được tinh chỉnh để dự đoán khả năng một đoạn văn bản được tạo bởi AI từ nhiều nguồn khác nhau”.

Bộ phân loại sẽ gắn nhãn văn bản là “rất có thể”, “không thể”, “không rõ ràng nếu có”, “có thể” hoặc “có khả năng” do AI tạo ra.

“Mục đích sử dụng của chúng tôi đối với trình phân loại văn bản AI là để thúc đẩy cuộc trò chuyện về sự khác biệt giữa nội dung do con người viết và nội dung do AI tạo ra”, bài đăng trên blog cho biết. “Kết quả có thể hữu ích, nhưng không phải là bằng chứng duy nhất, khi quyết định liệu một tài liệu có được tạo bằng AI hay không.”

OpenAI ra mắt công cụ tạo văn bản do AI tạo.

Trò chuyện GPT trở nên phổ biến trực tuyến vào cuối năm ngoái, là một công cụ AI miễn phí có thể tạo hội thoại dựa trên lời nhắc của người dùng và nó đã lan truyền nhanh chóng để tạo ra các bài thơ, công thức nấu ăn, email và các mẫu văn bản khác. Chatbot đã vượt qua các kỳ thi cấp độ sau đại học trong nhiều lĩnh vực, bao gồm cả kỳ thi cuối kỳ cho Chương trình thạc sĩ quản trị kinh doanh của Đại học Pennsylvania và các kỳ thi cho bốn khóa học luật tại đại học Minnesota. Nó cũng thực hiện “thoải mái trong phạm vi vượt qua” của Hoa Kỳ Kỳ thi cấp phép y tế.

Khả năng truy cập và khả năng của Chat GPT đã gây lo ngại cho nhiều nhà giáo dục. Sở giáo dục thành phố New York bị cấm Chat GPT từ các thiết bị và mạng của trường học trong tháng này, với lý do lo ngại về “tác động tiêu cực đến việc học tập của học sinh”. Người phát ngôn của bộ cho biết công cụ này có thể cung cấp “câu trả lời nhanh chóng và dễ dàng cho các câu hỏi” nhưng nó “không xây dựng các kỹ năng tư duy phản biện và giải quyết vấn đề”. Một số trường học và cao đẳng có xem xét sửa đổi mã danh dự của họ để giải quyết sự gia tăng của Chat GPT và các trình tạo văn bản khác.

Điều đó cũng đã thúc đẩy nỗ lực tạo ra các chương trình phát hiện chữ viết do AI tạo ra. Edward Tian, sinh viên năm cuối tại Đại học Princeton, đã phát triển GTZero vào cuối năm ngoái để chống đạo văn AI trong giới học thuật. Công cụ phát hiện đạo văn Copyleaks ra mắt công cụ của riêng mình trình phát hiện nội dung AI tháng này cho các tổ chức giáo dục và xuất bản. Phòng thử nghiệm mô hình học tập khổng lồ, một sự hợp tác năm 2019 giữa Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson và Nhóm xử lý ngôn ngữ tự nhiên Harvard, xác định văn bản do AI tạo ra bằng cách sử dụng văn bản tiên đoán.

Trình phân loại của OpenAI có một số hạn chế. Viết mẫu phải có ít nhất 1.000 ký tự, hoặc khoảng 150 đến 250 từ. Bài đăng trên blog lưu ý rằng công cụ này không phải lúc nào cũng chính xác — văn bản do AI tạo ra có thể được chỉnh sửa để tránh các công cụ phát hiện và trình phân loại văn bản có thể xác định nhầm cả mẫu do AI tạo và mẫu do con người viết.

OpenAI cũng thừa nhận rằng công cụ này được đào tạo bằng cách sử dụng các mẫu văn bản tiếng Anh do người lớn viết, vì vậy nó có thể xác định nhầm nội dung do trẻ em viết hoặc bằng các ngôn ngữ khác tiếng Anh.

OpenAI cho biết họ đã “không đánh giá kỹ lưỡng” hiệu quả của bộ phân loại trong việc “phát hiện nội dung được viết với sự cộng tác của các tác giả là con người”.

Để đào tạo mô hình phân loại văn bản, OpenAI đã sử dụng văn bản do con người viết từ bộ dữ liệu Wikipedia, bộ dữ liệu WebText 2019 và các bản trình diễn của con người được sử dụng để đào tạo Instruct GPT, một mô hình ngôn ngữ khác. Công ty cho biết họ đã sử dụng “các lô cân bằng chứa tỷ lệ bằng nhau giữa văn bản do AI tạo và do con người viết” để huấn luyện bộ phân loại văn bản.

Tuy nhiên, OpenAI cho biết, bộ phân loại có thể “cực kỳ tin tưởng vào một dự đoán sai” bởi vì nó chưa được “đánh giá cẩn thận” về “các mục tiêu nguyên tắc” như bài luận của sinh viên, bảng điểm trò chuyện hoặc chiến dịch thông tin sai lệch.

OpenAI cho biết: “Vì những hạn chế này, chúng tôi khuyên bạn chỉ nên sử dụng trình phân loại như một yếu tố trong số nhiều yếu tố khi được sử dụng như một phần của cuộc điều tra xác định nguồn gốc của một phần nội dung”.