Sora – công cụ Al tạo video gây sốt của OpenAI

Thứ Năm, 01/02/2024 17:56

Sora không tạo video bằng cách ghép nhiều ảnh mà kết xuất các pixel theo thời gian thực dựa trên hiểu biết về chuyển động vật lý.

Sora của OpenAI được đánh giá là công cụ AI tạo ra những thước phim chất lượng tốt nhất hiện nay bởi cộng đồng chuyên gia. “Sora đại diện cho một bước nhảy vọt trong việc chuyển đổi văn bản thành video,” ABC News nhận định.

Trước khi Sora ra đời, đã có những mô hình AI khác như Runway và Pika nhưng chất lượng video còn tệ và thời gian ngắn. Trong khi đó, Sora có thể tạo ra các video dài 60 giây với bối cảnh phức tạp nhưng vẫn đảm bảo độ mượt mà, logic, dù vẫn còn một số lỗi.

Tuy nhiên, OpenAI vẫn chưa công khai mô hình tạo video từ văn bản của mình cũng như tiết lộ rất ít về công nghệ phía sau và nguồn dữ liệu dùng để đào tạo.

Công ty đứng sau ChatGPT cho biết rằng Sora đã sử dụng mô hình khuếch tán để tạo video. Công cụ Al này sử dụng một video nhiễu có độ phân giải thấp, sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đạt được kết quả mong muốn. Điều này cho phép Sora tạo toàn bộ video cùng lúc thay vì từng đoạn ngắn và ghép lại như các công cụ khác. Thuật toán của nó cho phép mô hình dự đoán nhiều khung hình cùng lúc để đảm bảo chủ thể giữ nguyên vẹn trong khi các chi tiết khác được tái hiện.

Ngoài ra, OpenAI cho biết rằng Sora được xây dựng dựa trên những nghiên cứu trước đó về AI tạo ảnh Dall-E và tạo văn bản ChatGPT. Tuy nhiên, tiến sĩ Jim Fan, một nhà nghiên cứu cấp cao về AI tại Nvidia, nhấn mạnh: “Nếu bạn vẫn nghĩ rằng Sora chỉ là món đồ chơi sáng tạo như Dall-E thì hãy suy nghĩ lại. Đây là mô hình vật lý học hệ thống dựa trên dữ liệu, có khả năng mô phỏng cả thế giới thực lẫn ảo”.

Ông lưu ý rằng Sora là một mô hình biến áp khuếch tán từ đầu đến cuối. Bí mật của nó nằm ở khả năng hiểu sâu sắc về văn bản trước khi chuyển đổi thành các dạng hình ảnh 3D. Từ đó, mô hình tiếp tục đưa ra dự đoán dựa trên các quy tắc chuyển động vật lý để biến đổi từng pixel cho video đến mức chính xác nhất có thể.

Theo phân tích của Fan, trình mô phỏng của Sora không chỉ dựa trên dữ liệu được học mà nó còn có khả năng tự đào tạo để tìm ra kết quả đúng nhất trong quá trình sáng tạo. Điều này làm cho Sora trở nên đặc biệt vì nó không sử dụng phương pháp ghép chuỗi hình ảnh rời rạc mà kết xuất tập hợp pixel theo thời gian thực.

Điều này khiến các chuyên gia liên tưởng đến mô hình AI giải toán Olympic mà ba tiến sĩ gốc Việt đã công bố trên tạp chí khoa học Nature trong tháng trước. Trong phần mô tả về kỹ thuật hoạt động của Sora, OpenAI cũng khẳng định rằng mô hình tạo video này sẽ đóng vai trò quan trọng như một nền tảng cho AI hiểu và mô phỏng thế giới thực.

“Chúng tôi tin rằng đây sẽ là một cột mốc quan trọng để đạt được AGI”, OpenAI tuyên bố.

Tuy nhiên, OpenAI thừa nhận rằng Sora có thể gặp khó khăn khi mô phỏng chính xác tính chất vật lý của một cảnh phức tạp. Nó có thể không hiểu đúng về các mệnh đề mang tính nguyên nhân – kết quả.

Công ty đã đưa ra ví dụ rõ ràng về việc Sora có thể sáng tạo một video một người cắn một chiếc bánh quy nhưng sau đó chiếc bánh vẫn nguyên vẹn và không có vết cắn. Ngoài ra, Sora cũng có thể nhầm lẫn các chi tiết về hướng trái – phải, trước – sau.

Theo các nhà phân tích, điểm gây lo ngại lớn nhất về Sora nằm ở chính sự đột phá của OpenAI. Những video được tạo ra quá giống thật đã khiến nhiều người lo sợ rằng mô hình này có thể bị lạm dụng để phát tán nội dung sai lệch, vi phạm quyền riêng tư, phân biệt chủng tộc, thậm chí có thể ảnh hưởng đến kết quả của các cuộc bầu cử. Mặc dù các công ty đã cấm việc sử dụng Sora để tạo ra các nội dung xấu nhưng họ hiện vẫn chưa tìm được cách nhận biết được hình ảnh do AI tạo ra và hình ảnh thực để gắn nhãn, phân loại chúng.

Fred Havemeyer, người đứng đầu bộ phận nghiên cứu về trí tuệ nhân tạo tại Macquarie, cho rằng khả năng của Sora sẽ gây ra nhiều lo lắng liên quan đến vấn đề đạo đức và ảnh hưởng tới xã hội. Theo ông, tác động tiêu cực của trí tuệ nhân tạo sẽ là chủ đề được tranh luận nhiều nhất trong năm 2024 và Sora là phát súng mở màn.

Theo New York Times, OpenAI vẫn giữ kín thông tin về nội dung được sử dụng để đào tạo Sora, bao gồm nguồn gốc và tỷ lệ phần trăm bản quyền. “Có thể họ muốn giữ bí mật để duy trì lợi thế cạnh tranh nhưng cũng có thể họ sợ bị kiện liên quan đến bản quyền, tương tự như rắc rối mà ChatGPT đang đối mặt,” New York Times bình luận.