Chỉ với một câu lệnh, AI mới sẽ tạo ra video chân thực như thế này

Ngày diễn viên, đạo diễn thất nghiệp hàng loạt đang đến rất gần: OpenAI tung ra bom tấn làm phim chỉ bằng 1 câu lệnh

4.731

Từ câu lệnh và mô hình Sora vừa được OpenAI giới thiệu, người dùng sẽ có cho mình một video ngắn dưới một phút, với độ chân thực cao.

Sau "cơn sốt" mang tên ChatGPT, OpenAI tiếp tục khiến cộng đồng công nghệ toàn cầu dậy sóng khi giới thiệu mô hình Sora có khả năng tạo ra các video ngắn dưới một phút, với độ chân thực cao chỉ bằng vài dòng lệnh.

Trên mạng xã hội X, nhiều người dùng bày tỏ sự kinh ngạc với chất lượng video từ mô hình AI mới. Không chỉ hình ảnh chân thực, nhiều video ngắn còn cho thấy sự mô phỏng vật lý gần với thực tế.

"Đây có thể là khoảnh khắc khiến mọi người phải thốt lên kinh ngạc với AI", Tom Warren, biên tập viên tại The Verge nhận định.

Tất nhiên, nếu soi thật kỹ người dùng vẫn có thể thấy những lỗi trên video. Các đoạn video mà OpenAI công bố hiện tại đều rất ngắn, chỉ dưới 30 giây, và video dài sẽ còn nhiều lỗi hơn. Dù vậy, chỉ với vài video ngắn, nhiều người dùng đã hình dung ra được những bối cảnh mà Sora có thể được áp dụng, như các đoạn video minh họa.

Bên cạnh việc tạo video từ mô tả người dung, Sora cũng có thể dựng các video lấy cảm hứng từ bất kỳ bức ảnh nào hoặc mở rộng các video hiện có, hay tự hoàn thiện các khung hình bị thiếu.

Sora theo từ tiếng Nhật có nghĩa là bầu trời. Đội ngũ phát triển đằng sau công nghệ này, bao gồm các nhà nghiên cứu Tim Brooks và Bill Peebles, chọn cái tên này vì nó “gợi lên ý tưởng về tiềm năng sáng tạo vô hạn”.

Chất lượng quá chân thực

Trên trang chủ, OpenAI cho biết Sora có thể tạo video dài tối đa 60 giây với các cảnh có độ chi tiết cao, chuyển động camera phức tạp và nhiều nhân vật có cảm xúc sống động.

Mô hình Sora vừa được OpenAI giới thiệu có khả năng tạo ra các video ngắn dưới một phút, với độ chân thực cao chỉ bằng vài dòng lệnh. (Ảnh: OpenAI).

Ở dưới, startup công nghệ minh họa bằng một câu lệnh với nội dung: “Thành phố Tokyo đầy tuyết nhộn nhịp. Máy ảnh di chuyển qua con phố nhộn nhịp của thành phố, theo chân một số người đang tận hưởng thời tiết tuyết rơi tuyệt đẹp và mua sắm tại các quầy hàng gần đó. Những cánh hoa anh đào tuyệt đẹp đang bay trong gió cùng với những bông tuyết”.

Sau khi xử lý, mô hình AI trả về một đoạn video đáng kinh ngạc, với hình ảnh thành phố Tokyo không thể nhầm lẫn và khoảnh khắc tuyệt đẹp khi những bông tuyết và hoa anh đào cùng xuất hiện trong một khung hình.

Nếu không soi xét thật kỹ, người dùng rất khó phân biệt được đây là một đoạn video do AI tạo ra. Máy quay ảo, như thể được gắn vào một chiếc máy bay không người lái, theo dõi một cặp đôi chậm rãi đi dạo qua khung cảnh đường phố.

Một trong những người qua đường đang đeo mặt nạ. Những chiếc ôtô chạy ầm ầm trên con đường ven sông ở bên trái và những người mua sắm bên phải ra vào một dãy cửa hàng nhỏ.

Sam Altman, CEO OpenAI tạo đoạn phim cho người theo dõi với yêu cầu "buổi dạy nấu ăn của bà ngoại trong căn bếp theo phong cách Tuscan". (Ảnh: Sam Altman).

Đoạn video từ những dòng lệnh cơ bản nhanh chóng thu hút đến hơn 30 triệu lượt xem trên nền tảng X. Ở phần bình luận, nhiều người dùng bày tỏ sự kinh ngạc về độ chân thực mà đoạn video mang lại.

CNBC nhận định video có thể là thử thách tiếp theo với AI tạo sinh, sau khi các chatbot hay trình tạo hình ảnh đã thành công xâm nhập vào thế giới tiêu dùng và kinh doanh.

Bên cạnh việc kích thích những người đam mê ứng dụng AI, công nghệ mới này cũng gây ra mối lo ngại nghiêm trọng về việc phát tán tin giả, trong bối cảnh các cuộc bầu cử chính trị lớn đang đến gần trên toàn cầu.

Theo dữ liệu từ công ty máy học Clarity, số lượng deepfake do AI tạo ra đã tăng 900% so với năm 2023.

Hồi chương báo động cho ngành làm phim

OpenAI, công ty đứng sau chatbot ChatGPT và phần mềm tạo ảnh Dall-E chỉ là một trong số nhiều cái tên lớn trong giới công nghệ đang chạy đua để hoàn thiện mô hình tạo video tức thời này.

Hồi tháng 2/2023, một công ty có tên Runway đã giới thiệu về công nghệ biến văn bản thành video bằng AI hoàn toàn mới.

Nghệ sĩ hiệu ứng hình ảnh Evan Halleck của bộ phim từng thắng giải Oscar Everything Everywhere All At Once thậm chí còn thừa nhận các công cụ AI của Runway đã tối ưu hóa công việc của ông.

Đoạn video được AI tạo ra từ mô tả "một người phụ nữ sành điệu bước xuống con phố ở Tokyo". (Ảnh: OpenAI).

“Tôi có thể cắt các ký tự, đặt chúng gọn gàng trên một tấm ảnh chụp trong vài phút so với việc mất nửa ngày”, chuyên gia chia sẻ.

Chuyên gia cho rằng ứng dụng của AI vào ngành giải trí đang ngày càng lớn. Từ sự phát triển của công nghệ deepfake đến AI được sử dụng để tạo kịch bản, trí tuệ nhân tạo đang dần len lỏi vào công việc sản xuất phim.

“Nó nhanh hơn và rẻ hơn nhân công. Theo quan điểm của tôi, kỹ xảo là một quá trình rất tốn thời gian và công sức. Vì vậy, thật tuyệt khi mọi thứ đều được tự động hóa”, ông tiếp tục.

New York Times cho rằng AI có thể tăng tốc công việc của các nhà làm phim dày dạn kinh nghiệm, đồng thời thay thế hoàn toàn các nghệ sĩ kỹ thuật số ít kinh nghiệm hơn.

Những cảnh quay của Sora chắc chắn đã rất ấn tượng, nhưng đó vẫn chưa phải là tất cả. Wired nhận định điều đáng ngạc nhiên nhất của mô hình Sora là những khả năng mà nó vốn không được đào tạo từ đầu.

Cụ thể, Sora không chỉ tạo ra các video đáp ứng nhu cầu từ mô tả người dùng, mà nó còn làm như thể nắm bắt rõ ràng ngôn ngữ điện ảnh.

Các công cụ AI của Runway đã tối ưu hóa công việc cho đội ngũ kỹ xảo của phim Everything Everywhere All At Once. (Ảnh: A24).

Ngoài ra, một tính năng trong Sora mà đội ngũ phát triển của OpenAI đã không tiết lộ là khả năng tạo video từ một hình ảnh hoặc một chuỗi khung hình.

"Đây sẽ là một cách thực sự thú vị để cải thiện khả năng kể chuyện. Bạn có thể vẽ chính xác những gì bạn nghĩ trong đầu và sau đó biến nó thành hiện thực”, Tim Brooks, một nhà khoa học nghiên cứu trong dự án cho biết.

Theo Bill Peebles, một nhà nghiên cứu khác của dự án, phía OpenAI nhận thức được rằng tính năng này cũng có khả năng tạo ra các thông tin giả mạo và có thể bị lạm dụng.

Cập nhật: 22/02/2026 Znews