Google DeepMind đã phát triển công nghệ V2A (Video-to-Audio), được đánh giá là "mảnh ghép còn thiếu để sản xuất phim bằng AI", với khả năng tạo âm thanh khớp với video.
Hiện nay, khả năng tạo video của AI đang được đánh giá cao nhờ các công cụ như Sora của OpenAI, Dream Machine của Luma AI, Gen-3 Alpha của Runway, và gần đây là Veo của Google. Tuy nhiên, một điểm yếu chung của những công cụ này là thiếu âm thanh đi kèm.
Video từ Google DeepMind trình diễn công nghệ V2A của Google với âm thanh khớp nội dung. Video: Google DeepMind
Theo TechRadar, công nghệ V2A của Google khắc phục được nhược điểm này, mang lại bước tiến lớn trong việc tạo ra các cảnh phim tự động. V2A hỗ trợ các nhà làm phim chuyên nghiệp và người dùng nghiệp dư kết hợp nhiều công cụ AI để tạo ra những đoạn phim theo ý muốn.
Công nghệ V2A hoạt động bằng cách phân tích từng pixel của video và lời nhắc văn bản để tạo nhạc nền dựa trên nội dung hiển thị. Trong loạt video được Google DeepMind chia sẻ, công nghệ V2A kết hợp với các trình tạo video AI hiện có đã tạo ra những đoạn phim "khớp với ký tự và giai điệu của video".
Google viết trên blog ngày 19/6: "Công cụ V2A có thể tạo số lượng bản nhạc không giới hạn cho bất kỳ đầu vào video nào, cho bất kỳ cảnh nào."
Google cũng nhận thức rõ nguy cơ lạm dụng công cụ này cho mục đích không chính đáng. Do đó, họ coi đây là một dự án nghiên cứu và chưa có kế hoạch phát hành rộng rãi. "Trước khi xem xét việc mở quyền truy cập cho công chúng, công nghệ V2A sẽ trải qua quá trình đánh giá và thử nghiệm an toàn nghiêm ngặt", đại diện Google nhấn mạnh.
Bình luận