Google ra mắt Gemini Omni, cho phép tạo video bằng hình ảnh, giọng nói và văn bản

(PLO)- Tại sự kiện Google I/O 2026, gã khổng lồ công nghệ tìm kiếm đã trình làng Gemini Omni, dòng mô hình AI mới có khả năng kết hợp suy luận với các công cụ sáng tạo nội dung.

Đáng chú ý, người dùng có thể tạo hoặc chỉnh sửa video bằng nhiều loại dữ liệu đầu vào khác nhau như hình ảnh, video, văn bản, thậm chí cả giọng nói.

Mô hình đầu tiên thuộc dòng này là Gemini Omni Flash, hiện đã bắt đầu xuất hiện trên ứng dụng Gemini, Google Flow và YouTube Shorts.

Tạo video bằng Omni Flash trong Google Flow. Ảnh: TIỂU MINH

Khác với cách chỉnh sửa video truyền thống vốn yêu cầu nhiều thao tác phức tạp, Gemini Omni cho phép người dùng trò chuyện trực tiếp với AI để thay đổi nội dung video bằng ngôn ngữ tự nhiên. Chẳng hạn, người dùng có thể yêu cầu thêm nhân vật, thay đổi bối cảnh, chỉnh sửa chuyển động hoặc biến một đoạn video thông thường thành một khung cảnh hoàn toàn khác. Hệ thống cũng ghi nhớ các yêu cầu trước đó để duy trì sự nhất quán giữa nhân vật và bối cảnh.

Google cho biết Gemini Omni không chỉ tạo hình ảnh hoặc video theo yêu cầu mà còn sử dụng kiến thức về thế giới thực để xử lý nội dung hợp lý hơn. Mô hình được thiết kế để hiểu các yếu tố như chuyển động, trọng lực hay cách sự vật tương tác với nhau trong thực tế nhằm tạo ra video tự nhiên hơn.

Một điểm mới khác là tính năng Avatar, cho phép tạo phiên bản kỹ thuật số từ chính người dùng để tạo video có ngoại hình và giọng nói tương tự ngoài đời thật. Tuy nhiên, Google cho biết hãng vẫn đang tiếp tục thử nghiệm và phát triển tính năng này theo hướng an toàn hơn trước khi mở rộng phạm vi sử dụng.

Tạo nhân vật để sử dụng đồng nhất xuyên suốt video. Ảnh: TIỂU MINH

Theo Google, tất cả video tạo bằng Gemini Omni sẽ được gắn dấu nhận diện kỹ thuật số SynthID để hỗ trợ xác minh nội dung AI và tăng tính minh bạch.

Đọc thêm

Đọc nhiều
Tiện ích
Tin mới