Tập đoàn internet Trung Quốc Tencent đã giới thiệu mô hình trí tuệ nhân tạo (AI) vào ngày 15/3 với tên gọi Follow-Your-Click.
Công cụ hoạt hình mới có tên Follow-Your-Click xuất hiện trên trang web mã nguồn mở GitHub của Microsoft. Công cụ này cho phép người dùng tạo ra các video hoạt hình ngắn bằng cách nhấp chuột vào các phần của hình ảnh và chuyển chúng thành video động.
Dự án này là kết quả hợp tác giữa nhóm Hunyuan của Tencent, Đại học Khoa học và Công nghệ Hong Kong và Đại học Thanh Hoa Trung Quốc.
Tencent dự kiến sẽ phát hành mã nguồn đầy đủ cho công cụ này vào tháng 4, nhưng phiên bản dùng thử đã có sẵn trên GitHub.
Follow-Your-Click được tạo ra nhằm mục đích giải quyết các vấn đề mà các mô hình chuyển hình ảnh thành video khác trên thị trường gặp phải là có xu hướng di chuyển toàn bộ cảnh thay vì tập trung vào các đối tượng cụ thể trong ảnh.
Các mô hình AI khác yêu cầu người dùng đưa ra những mô tả chi tiết về cách thức và nơi họ muốn hình ảnh di chuyển.
Các nhà nghiên cứu viết trong bài đăng trên arXiv: “Khung làm việc của chúng tôi có khả năng kiểm soát người dùng đơn giản hơn nhưng chính xác hơn và hiệu suất tạo ra tốt hơn so với các phương pháp trước đây”.
Việc tạo video từ văn bản đã trở thành một chủ đề nóng kể từ khi OpenAI giới thiệu Sora vào ngày 15/2.
Trước đó, hồi tháng 1, Tencent đã trình làng công cụ chỉnh sửa và tạo video nguồn mở VideoCrafter2, có khả năng tạo video từ văn bản. Đây là phiên bản cập nhật của VideoCrafter1, được phát hành vào tháng 10/2023 nhưng chỉ giới hạn ở các video 2 giây.
Các đối thủ tại Trung Quốc của Tencent cũng đã tham gia cuộc đua. Tập đoàn Alibaba gần đây đã tung ra một công cụ tạo video chân dung có tên EMO, biến hình ảnh và lời nhắc âm thanh thành video hát và nói chuyện.
Gần như cùng thời gian đó, ByteDance đã phát hành mô hình chuyển văn bản thành video MagicVideo-V2.