Hệ thống AI EMO là gì?
Bài nghiên cứu về hệ thống AI EMO được đăng tải arXiv, đề cập đến việc hỗ trợ người dùng tạo ra các video sống động (có chuyển động khuôn mặt, tư thế đầu và biểu cảm phù hợp với phần âm thanh được cung cấp).
OpenAI giới thiệu Sora, mô hình AI chuyển văn bản thành video
(PLO)- Sora là mô hình AI có thể tạo ra những video chân thực, giàu trí tưởng tượng từ những hướng dẫn bằng văn bản.
Linrui Tian, tác giả chính của bài báo cho biết: “Các kỹ thuật truyền thống thường không nắm bắt được toàn bộ biểu cảm của con người và sự độc đáo trên khuôn mặt của từng cá nhân. Để giải quyết những vấn đề này, chúng tôi đề xuất EMO, một hệ thống AI mới sử dụng phương pháp tổng hợp âm thanh thành video trực tiếp, bỏ qua nhu cầu về mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt.”
Hệ thống AI EMO sử dụng kỹ thuật AI được gọi là mô hình khuếch tán, cho thấy khả năng to lớn trong việc tạo ra hình ảnh tổng hợp thực tế. Các nhà nghiên cứu đã đào tạo mô hình này trên một tập dữ liệu gồm hơn 250 giờ video nói chuyện được tuyển chọn từ các bài phát biểu, phim, chương trình truyền hình và biểu diễn ca hát.
Không giống như các phương pháp trước đây dựa vào mô hình khuôn mặt 3D hoặc kết hợp các hình dạng để ước tính chuyển động trên khuôn mặt, EMO chuyển đổi trực tiếp dạng sóng âm thanh thành khung hình video. Điều này cho phép nó ghi lại những chuyển động tinh tế và những đặc điểm nhận dạng cụ thể liên quan đến giọng nói tự nhiên.
Theo các thử nghiệm được mô tả trong bài báo, EMO vượt trội đáng kể so với các phương pháp tiên tiến hiện có về các số liệu đo lường chất lượng video, bảo toàn danh tính và tính biểu cảm. Các nhà nghiên cứu cũng đã tiến hành một nghiên cứu về người dùng và nhận thấy video do EMO tạo ra tự nhiên và giàu cảm xúc hơn so với video do các hệ thống khác sản xuất.
Tạo video ca hát thực tế
Ngoài các video hội thoại, EMO còn có thể tạo hoạt ảnh cho các bức chân dung ca hát với hình dạng miệng thích hợp và nét mặt gợi cảm đồng bộ với giọng hát. Hệ thống hỗ trợ tạo video từ hình ảnh với thời lượng tùy ý dựa trên độ dài của âm thanh đầu vào.
Bài báo nêu rõ: “Kết quả thử nghiệm chứng minh rằng EMO có thể tạo ra không chỉ các video thuyết trình thuyết phục mà còn cả video hát theo nhiều phong cách khác nhau, vượt trội đáng kể so với các phương pháp hiện đại nhất về mặt biểu cảm và tính chân thực”.
Tuy nhiên, vẫn còn những lo ngại về mặt đạo đức về khả năng lạm dụng công nghệ đó để mạo danh mọi người mà không có sự đồng ý hoặc truyền bá thông tin sai lệch.
5 tính năng AI tốt nhất trên Samsung Galaxy S24
(PLO)- Việc tận dụng tối đa các tính năng AI trên Samsung Galaxy S24 series sẽ giúp bạn cải thiện hiệu suất công việc, tiết kiệm thời gian cũng như tăng khả năng sáng tạo.