Công cụ tạo video từ văn bản của OpenAI 'ảo diệu' đến mức nào

9 tháng trước 86
Chú thích ảnhHình ảnh cắt từ video do công cụ Sora tạo ra, dựa trên hướng dẫn bằng văn bản. Ảnh: NYT

Theo tờ Guardian, công cụ mới của nhà sản xuất ChatGPT “mô phỏng thế giới vật chất đang chuyển động” dài tới một phút dựa trên những dòng text hướng dẫn về chủ đề và phong cách của người dung.

Công cụ có nickname là Sora (theo tiếng Nhật có nghĩa là “bầu trời”) có thể tạo ra những thước phim chân thực dài tới một phút tuân thủ hướng dẫn của người dùng về cả chủ đề và phong cách. Theo một bài đăng trên blog của công ty OpenAI, mô hình này cũng có thể tạo video dựa trên hình ảnh tĩnh hoặc mở rộng cảnh quay hiện có bằng chất liệu mới.

Điều bất ngờ là các video do Sora tạo ra chân thực đến mức đáng kinh ngạc cho thấy khả năng đáng nể của mô hình AI này. Hiện tại, Sora chỉ dành cho một nhóm nhỏ các nhà nghiên cứu và nhà sáng tạo để thử nghiệm trước khi phát hành rộng rãi. Sự xuất hiện của Sora có thể gây ra ảnh hưởng đáng kể đến ngành công nghiệp điện ảnh và khiến cho vấn nạn deepfake ngày càng nghiêm trọng.

Xem video về voi ma mút thời tiền sử do công cụ AI của OpenAI tạo ra từ lời nhắc bằng text (Nguồn: New York Times)

Bài đăng trên blog cho biết: “Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật chất đang chuyển động, với mục tiêu đào tạo các mô hình giúp con người giải quyết các vấn đề đòi hỏi sự tương tác trong thế giới thực”.

Video voi ma mút trên được Sora tạo nên từ những gợi ý văn bản là: “Một số con voi ma mút khổng lồ đi qua một đồng cỏ đầy tuyết, bộ lông dài của chúng tung bay nhẹ trong gió khi chúng bước đi, cây cối phủ đầy tuyết và những ngọn núi phủ tuyết ấn tượng ở phía xa, ánh sáng buổi chiều với những đám mây mỏng manh và mặt trời trên cao tạo ra ánh sáng ấm áp; camera đặt từ góc thấp để chụp được loài động vật lớn bằng hình ảnh đẹp, có độ sâu trường ảnh.

Công ty thông báo đã mở quyền truy cập Sora cho một số nhà nghiên cứu và người sáng tạo video, nhưng không tiết lộ thời điểm phổ biến đến công chúng. Các chuyên gia sẽ kiểm tra khả năng tuân thủ các điều khoản dịch vụ của OpenAI, trong đó nghiêm cấm “bạo lực cực đoan, nội dung khiêu dâm, hình ảnh thù hận, chân dung người nổi tiếng hoặc IP của người khác” - theo bài đăng trên blog của công ty.

Bên cạnh tạo video từ văn bản, Sora còn có thể tạo video dựa trên ảnh tĩnh, điền vào các khung hình bị thiếu trong video hiện có hoặc kéo dài video đó. Các ví dụ video do Sora tạo được OpenAI chia sẻ trong bài đăng trên blog bao gồm cảnh trên không của California thời kỳ cơn sốt vàng, video như được quay từ bên trong tàu điện Tokyo...

Không thể phủ nhận chất lượng tuyệt vời với các video do Sora sản sinh ra. Thông thường để sản xuất các video này, một đội ngũ quay phim hoặc họa sĩ hoạt hình thực sự sẽ mất hàng giờ đồng hồ. Sora có thể sẽ gây đảo lộn ngành công nghiệp điện ảnh tương tự như cách ChatGPT và trình tạo hình ảnh AI đã khiến thế giới biên tập và thiết kế bị sốc. Đây là một công nghệ vừa đáng chú ý vừa đáng sợ về vấn đề bảo đảm việc làm cho những nhà sáng tạo video.

Đoạn video dưới được Sora tạo ra chỉ với những lời hướng dẫn ngắn ngủi: “Một thế giới giấy thủ công được kết xuất tuyệt đẹp về một rạn san hô, đầy những loài cá và sinh vật biển màu sắc”.

OpenAI không tiết lộ bao nhiêu cảnh quay đã được sử dụng để đào tạo Sora hoặc các video đào tạo có thể bắt nguồn từ đâu, ngoài việc tiết lộ với báo New York Times rằng kho tài liệu chứa các video được cung cấp công khai và được cấp phép từ chủ sở hữu bản quyền.

Công ty này đã bị kiện nhiều lần vì bị cáo buộc vi phạm bản quyền trong việc đào tạo các công cụ AI tổng hợp, có khả năng xử lý lượng tài liệu khổng lồ được lấy từ Internet và bắt chước hình ảnh hoặc văn bản có trong các bộ dữ liệu đó.

OpenAI cho biết vẫn còn một vài điểm cần cải thiện, bao gồm việc công cụ không hiểu mối quan hệ nhân quả hay còn thiếu nhận thức không gian. Nó có thể nhầm lẫn trái và phải, và không hiểu cách một người hoặc vật thể tương tác với một cảnh.

Tuy vậy, chất lượng đáng kinh ngạc của Sora cũng gây ra một mối lo ngại khác khi công nghệ AI đang bị lợi dụng để tạo ra các nội dung giả mạo trong thời gian gần đây. OpenAI cho biết họ sẽ xây dựng các công cụ để giúp phát hiện nội dung gây hiểu lầm, cũng như áp dụng các công nghệ hiện có để từ chối các lời nhắc văn bản có hại. Tuy nhiên, với những cách mà nhiều người sử dụng để vượt qua các biện pháp bảo vệ của các mô hình AI hiện tại, thành công của những nỗ lực này vẫn còn đáng nghi vấn.

OpenAI đã ra mắt trình tạo hình ảnh tĩnh Dall-E vào năm 2021 và chatbot AI tổng hợp ChatGPT vào tháng 11/2022, nhanh chóng thu hút được 100 triệu người dùng.

Các công ty AI khác hiện đã ra mắt các công cụ tạo video, mặc dù những mô hình đó chỉ có thể tạo ra những đoạn phim ngắn vài giây và thường ít liên quan đến lời gợi ý.

Google và Meta cho biết họ đang trong quá trình phát triển các công cụ video tổng hợp, mặc dù họ chưa phát hành ra công chúng. Hôm 14/2, họ đã công bố một thử nghiệm bổ sung bộ nhớ sâu hơn cho ChatGPT để có thể ghi nhớ nhiều cuộc trò chuyện của người dùng hơn.

Nguồn bài viết