Deepseek Có Phong Cách ‘Gần Như Trùng Khớp’ Với ChatGPT
Một nghiên cứu mới được công bố trên arXiv.org vào ngày 3/3 cho thấy phong cách văn bản của DeepSeek có mức độ tương đồng khoảng 74,2% so với ChatGPT của OpenAI. Nghiên cứu này được thực hiện bởi Copyleaks, một công ty chuyên phân tích và so sánh các mô hình AI, và kết quả cho thấy DeepSeek có khả năng đã được huấn luyện dựa trên đầu ra của ChatGPT.
Theo đánh giá của Forbes, nghiên cứu này mang ý nghĩa quan trọng đối với các vấn đề liên quan đến quyền sở hữu trí tuệ, quy định về AI, cũng như sự phát triển của trí tuệ nhân tạo trong tương lai.

Cụ thể, Copyleaks đã sử dụng công nghệ sàng lọc và bộ phân loại thuật toán để phát hiện “dấu vân tay” về phong cách văn bản của các mô hình ngôn ngữ như OpenAI, Claude, Google Gemini, Meta Llama và DeepSeek. Kết quả cho thấy, trong khi văn bản được tạo ra bởi hầu hết các mô hình khác đều dễ dàng phân biệt, phần lớn đầu ra của DeepSeek lại được thuật toán phân loại là “do các mô hình của OpenAI tạo ra”.
Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, cho biết phương pháp này tương tự như cách các chuyên gia về chữ viết tay cố gắng xác định tác giả của một bản thảo bằng cách so sánh nó với các mẫu chữ viết từ nhiều tác giả khác nhau.
“Trong trường hợp này, kết quả thực sự đáng ngạc nhiên và mang nhiều ý nghĩa”, Nisan chia sẻ với Forbes. “Có một sự tương đồng lớn về phong cách giữa DeepSeek và OpenAI, điều mà chúng tôi không tìm thấy ở các mô hình khác được kiểm tra”.
Nisan nhấn mạnh rằng kết quả nghiên cứu đặt ra những câu hỏi quan trọng về cách DeepSeek được đào tạo và liệu nó có sử dụng dữ liệu đầu ra từ OpenAI hay không. “Mặc dù những điểm tương đồng này chưa thể chứng minh chắc chắn rằng DeepSeek là một sản phẩm phái sinh, nhưng nó đặt ra nghi vấn về quy trình phát triển của giải pháp này”, ông nói. “Xét đến vị thế dẫn đầu của các mô hình OpenAI, những phát hiện của chúng tôi cho thấy cần phải điều tra sâu hơn về kiến trúc, dữ liệu đào tạo và quy trình phát triển của DeepSeek”.
Các nhà nghiên cứu tại Copyleaks cũng nhận định rằng nếu dữ liệu đào tạo của DeepSeek sử dụng văn bản do OpenAI tạo ra mà không có sự cho phép, hậu quả đối với quyền sở hữu trí tuệ “sẽ rất nghiêm trọng”. Việc thiếu minh bạch trong dữ liệu đào tạo AI có thể tạo ra những tác động “sâu rộng” đến lĩnh vực này trong tương lai. Các cơ quan quản lý có thể xem xét yêu cầu các công ty AI công khai thông tin về các tập dữ liệu và đầu ra mô hình được sử dụng để huấn luyện các mô hình của họ.
Mặc dù các mô hình AI có thể dần hội tụ về phong cách theo thời gian, đặc biệt nếu được đào tạo trên các tập dữ liệu chồng chéo, nhưng theo Nisan, phương pháp phân tích của Copyleaks được thiết kế đặc biệt để phát hiện những khác biệt tinh tế về phong cách giữa các mô hình. Do đó, sự tương đồng giữa DeepSeek và OpenAI không chỉ đơn thuần là do chồng chéo dữ liệu, mà còn có khả năng liên quan đến cấu trúc hoặc quy trình đào tạo của mô hình.
Cả DeepSeek và OpenAI hiện đều chưa đưa ra bình luận chính thức về vấn đề này.
Cuối năm ngoái, mô hình V3 của DeepSeek đã bị phát hiện tự nhận mình là ChatGPT trong một số truy vấn. Trong các thử nghiệm của TechCrunch và một số chia sẻ từ người dùng trên mạng xã hội, DeepSeek V3 đã khẳng định mình là ChatGPT. Khi được yêu cầu giải thích, mô hình này thậm chí còn tuyên bố rằng nó là phiên bản GPT-4, được OpenAI phát hành vào năm 2023.
Theo một số phân tích, DeepSeek có thể đã sử dụng kỹ thuật “chưng cất” kiến thức từ các mô hình đi trước. Vào ngày 29/1, OpenAI đã chia sẻ với Financial Times rằng họ phát hiện dấu hiệu “chưng cất” mà họ nghi ngờ đến từ DeepSeek. Kỹ thuật này thường được các nhà phát triển sử dụng để cải thiện hiệu suất của các mô hình nhỏ hơn bằng cách tận dụng đầu ra từ các mô hình lớn, giúp họ đạt được kết quả tương tự trong các nhiệm vụ cụ thể với chi phí thấp hơn. Mặc dù đây là một phương pháp phổ biến trong lĩnh vực AI, nhưng có khả năng DeepSeek đã vi phạm các điều khoản dịch vụ của OpenAI. Tuy nhiên, công ty Trung Quốc này vẫn chưa đưa ra bất kỳ phản hồi nào sau đó.