Khi nói đến việc học nấu ăn thì có vẻ như những con robot thời nay cũng không quá khác biệt so với con người?
Quá trình để dạy những con robot học một hành động hay sự việc nào đó có một sự khác biệt rất lớn với việc dạy một con người. Con người có thể hiểu rõ được câu nói "tôi cần một cái cốc" và chỉ việc lấy một chiếc cốc rồi đưa đến cho người kia. Tuy nhiên, quá trình dạy cho robot thì không đơn giản như vậy. Bạn sẽ phải chỉ dạy cẩn thận rằng nó phải quay lại, đi đến cái tủ, mở tủ ra, lấy cái cốc, đóng tủ lại, quay lại và đi về phía người ra lệnh và đưa cái cốc cho họ.
Và một điểm nữa cũng rất quan trọng trong việc dạy bảo robot là làm thế nào bạn có thể lập trình được để một con robot có thể phân biệt bằng trực giác rằng bạn đang cần một chiếc cốc nhựa, cốc thủy tinh hay đơn giản chỉ là cần một chiếc cốc mà thôi? Làm thế nào để bạn có thể thiết kế được một con robot có khả năng tự dạy bản thân mình?
Các nhà nghiên cứu thuộc Viện Nghiên cứu máy tính cao cấp của Trường Đại học Maryland (UMIACS) đã tìm ra một cách. Đó là nhờ vào Youtube. Cụ thể hơn là các bài hướng dẫn nấu ăn được chia sẻ trên Youtube. Bằng cách xem những đoạn video hướng dẫn này robot có thể học hỏi một loạt những thao tác chuyển động phức tạp cần thiết để nấu ăn. Những con robot này sẽ quan sát cách mà con người làm trên đoạn phim và sau đó bắt chước theo.
"Sở dĩ chúng tôi lựa chọn những video hướng dẫn nấu ăn là do ai cũng có thể thực hiện được" – giáo sư khoa khoa học máy tính của UMD và chủ nhiệm phòng thí nghiệm "thị giác máy tính" (Computer Vision) của UMIACS là Yiannis Aloimonos đã chia sẻ.
Tuy vậy, nấu ăn là một chuỗi các phức tạp các hành động nấu nướng, sự phối hợp theo trình tự và với rất nhiều công cụ liên quan. Ví dụ như nếu bạn muốn cắt một quả dưa chuột, bạn sẽ phải lấy con dao và đưa nó vào đúng vị trí rồi mới tiến hành cắt dưa chuột. Trong quá trình đó bạn sẽ luôn phải quan sát để chắc rằng mình đang "làm đúng".
Robot trong thí nghiệm của Yiannis Aloimonos sử dụng một vài hệ thống quan trọng để có thể học hỏi từ những video trên Youtube. Đầu tiên phải kể đến là hệ thống "thị giác máy tính". Đây là hệ thống thu thập và xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh và các dữ liệu đa chiều từ bên ngoài để cho các ra các thông tin số. Sau khi những "con mắt điện tử" đã thu thập được hình ảnh từ đoạn phim thì một "bộ não điện tử" với trí thông minh nhân tạo sẽ được sử dụng để phân tích các hình ảnh đó. Cuối cùng là hệ thống phân tích cú pháp ngôn ngữ sẽ giúp con robot hiểu được các câu hướng dẫn. Sau khi tổng hợp phân tích từ 3 hệ thống này thì robot sẽ chuyển nó thành hành động.
Cornelia Fermüller đang thực hiện các thí nghiệm với "thị giác máy tính"
Bằng cách này, robot có thể thu thập các bước nấu ăn riêng lẻ từ các video khác nhau và gán cho chúng đánh dấu riêng theo chương trình của nó rồi sau đó đặt chúng lại với nhau theo thứ tự chính xác.
Cornelia Fermüller - Cộng sự của Yiannis Aloimonos và là nhà nghiên cứu khoa học của UMIACS – đã nói rằng: "Chúng tôi đang cố gắng tạo ra một công nghệ robot để cuối cùng có thể tương tác với con người. Để làm được điều đó, chúng ta cần một công cụ để những con robot có thể nhìn và bắt chước hành động của con người".
Có một sự khác biệt của nhóm nghiên cứu này với các dự án trước đây là chú trọng vào mục tiêu công việc chứ không phải các bước. Những con robot sẽ học cách để lưu trữ các hành động khác nhau vào cơ sở dữ liệu của nó và sử dụng chúng để hoàn thành một công việc chứ không hoàn toàn chỉ bắt chước nguyên văn từng bước từng bước các hành động của con người.
Mô tả sơ lược hoạt động của những con robot
Cũng theo nghiên cứu của nhóm nghiên cứu thì nhóm dự đoán các module nhận diện hành động có độ chính xác là 77% và độ bao phủ là 76%. Còn với module nhận diện các loại thức ăn thì độ chính xác của những con robot này là 93% và độ bao phủ cũng là 93%. Độ chính xác và độ bao phủ là 2 thuật ngữ thường thấy trong kỹ thuật phân loại. Độ chính xác (Precision) được đo bởi tỉ lệ của đối tượng chính xác trên tổng các đối tượng nhận được còn độ bao phủ (Recall) được đo bởi tỉ lệ của đối tượng trả về chính xác trên tổng các đối tượng có liên quan.
Các loại hành động cầm nắm khác nhau
Theo các thí nghiệm thực tế thì nhìn chung các robot này chỉ đạt được kết quả tỉ lệ nhận biết các loại thức ăn là 73%, tỉ lệ nắm bắt hành động là 93% và dự đoán hành động là 83%. Sự sụt giảm đáng kể về độ chính xác nhận dạng đối tượng là vì các robot đã không được đào tạo về một số đối tượng, chẳng hạn như đậu phụ.
"Bằng việc sáng tạo ra những con robot có thể hoạt động linh hoạt, chúng tôi sẽ đóng góp cho giai đoạn tiếp theo của tự động hóa. Đây sẽ là cuộc cách mạng công nghiệp tiếp theo" - Aloimonos nói. "Chúng tôi sẽ có môi trường sản xuất và kho thông minh hoàn toàn tự động. Điều này sẽ thật tuyệt vời với việc sử dụng robot tự điều khiển cho công việc nguy hiểm như gỡ bom hay làm sạch thảm họa hạt nhân như sự kiện Fukushima. Chúng tôi sẽ chứng minh được rằng có thể cho robot hình người làm công việc của con người trong tương lai".
Nhóm nghiên cứu sẽ được trình bày nghiên cứu của mình tại Hội nghị phát triển trí thông minh nhân tạo ở Austin, Texas vào ngày 29 Tháng 1 năm 2015.