Hình ảnh robot như những trợ lý đáng tin cậy đã trở thành một phần trong trí tưởng tượng chung của con người trong nhiều thập kỷ qua.
Bất chấp những tầm nhìn tương lai, việc hiện thực hóa những trợ lý robot này trên thực tế vẫn mang tính khoa học viễn tưởng hơn là thực tế.
Nhưng với những bước tiến của nhóm nghiên cứu DeepMind thuộc Google, giới công nghệ đã có cái nhìn sơ khai về bước đột phá thú vị nhằm định nghĩa lại lĩnh vực chế tạo robot của con người: sự ra đời của Robotics Transformer 2 (RT-2).
RT-2 là mô hình tầm nhìn-ngôn ngữ-hành động mang tính tiên phong. DeepMind phát triển mô hình này bằng cách sử dụng các kỹ thuật dựa trên transformer - mô hình học sâu (deep learning) được dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên và thị giác máy tính - và đào tạo nó dựa trên các dữ liệu văn bản và hình ảnh thu thập được từ Internet.
Đột phá quan trọng của RT-2 nằm ở khả năng thực hiện trực tiếp các hành động của robot. Về cơ bản, RT-2 học các khái niệm và ý tưởng chung từ dữ liệu web, sau đó áp dụng kiến thức đó để thông báo hành vi cho robot, giúp robot “hiểu” và “nói” thứ ngôn ngữ vận hành nên chúng một cách hiệu quả.
Hoạt động học máy của robot trong thế giới thực luôn đối mặt và đặt ra những thách thức to lớn. Để có thể thực hiện các nhiệm vụ phổ thông trong những môi trường nhiều biến số, robot phải nắm bắt được các nhiệm vụ phức tạp, trừu tượng, đặc biệt trong các môi trường chúng chưa từng gặp trước đây. Không giống như chatbot, robot yêu cầu một nền tảng vật chất trong thế giới thực. Chúng cần hiểu các khái niệm trừu tượng và cách áp dụng trong bối cảnh thực tế.
Trong lịch sử, robot thường được đào tạo thông qua hàng tỷ điểm dữ liệu có liên quan đến mọi đối tượng, môi trường, nhiệm vụ và tình huống có thể hình dung được trong thế giới vật chất. Quá trình này tốn nhiều thời gian, tốn kém và thường không thực tế đối với những nhà nghiên cứu sáng tạo. Do đó, việc “học tập” của robot luôn là một nhiệm vụ khó khăn.
RT-2 cho thấy một cách tiếp cận khác biệt so với các phương pháp huấn luyện truyền thống. Những tiến bộ gần đây trong công nghệ robot đã cải thiện khả năng suy luận và phân tích các vấn đề nhiều bước của robot, với các mô hình thị giác như PaLM-E giúp robot hiểu rõ hơn về môi trường xung quanh. Các mẫu robot trước đây như RT-1 đã chứng minh rằng mô hình transformer - vốn được công nhận về khả năng khái quát hóa thông tin giữa các hệ thống - có thể tạo điều kiện thuận lợi cho việc học máy của nhiều loại robot khác nhau.
Trước RT-2, robot vận hành dựa vào các hệ thống ngăn xếp phức tạp, trong đó hệ thống lập luận cấp cao và thao tác cấp thấp phối hợp với nhau để robot có thể hoạt động. Cách tiếp cận rườm rà này có thể so sánh với việc một con người suy nghĩ từng động tác trong đầu trước khi thực hiện việc di chuyển cơ thể. RT-2 đơn giản hóa việc này bằng cách kết hợp hành động đầu ra và suy luận phức tạp trong một mô hình duy nhất.
Một tính năng quan trọng của RT-2 là khả năng chuyển đổi các khái niệm bắt nguồn từ dữ liệu đào tạo ngôn ngữ và thị giác để hướng dẫn các hành động của robot, ngay cả đối với các nhiệm vụ mà nó chưa từng được đào tạo cụ thể.
Ví dụ như nhiệm vụ xử lý rác. Các hệ thống robot truyền thống sẽ cần được đào tạo rõ ràng để xác định rác là gì, nhặt chúng thế nào rồi vứt đi ra sao. RT-2, bằng cách chuyển giao kiến thức từ một kho dữ liệu lớn, đã hiểu sẵn rác là gì và có thể xác định nó mà không cần được đào tạo rõ ràng. Nó thậm chí còn hiểu cách vứt rác mà không cần được dạy làm như vậy.
Khả năng chuyển thông tin thành hành động của RT-2 cho phép robot thích ứng nhanh chóng với các tình huống và môi trường mới.
Trong số hơn 6.000 thử nghiệm, RT-2 đã thực hiện tốt tương đương phiên bản RT-1 trước đó đối với các nhiệm vụ được đào tạo, đồng thời tăng gần gấp đôi hiệu suất trong các tình huống mới chưa từng trải qua.
Theo nghĩa này, RT-2 cho phép robot học hỏi giống như con người, áp dụng các khái niệm đã biết trước đó vào các tình huống mới.
Sự ra đời của các mẫu như RT-2 là minh chứng cho thấy những tiến bộ trong trí tuệ nhân tạo (AI) đang ảnh hưởng nhanh chóng đến ngành chế tạo robot như thế nào. Những tiến bộ đó hứa hẹn mang lại bước tiến rất lớn hướng tới khả năng con người phát triển thành công các mẫu robot đa năng, linh hoạt hơn nữa.
Dù giới nghiên cứu vẫn còn nhiều việc phải làm để hiện thực hóa các robot thực sự hữu ích trong môi trường lấy con người làm trung tâm, RT-2 cho thấy một cái nhìn thú vị về tương lai đầy hứa hẹn của ngành chế tạo robot.