Dù không được lập trình trước nhưng con robot này đã có thể tự học đi!

Hầu hết tất cả những sinh vật trên cạn đều đã phải học cách đi bộ từ khi còn nhỏ. Mỗi loài động vật khác nhau sẽ mất một khoảng thời gian khác nhau để có thể làm chủ đôi chân của mình: trẻ sơ sinh của chúng ta mất vài tháng hoặc vài năm để làm điều đó, linh dương con có thể làm điều đó gần như ngay khi chúng được sinh ra. Và, nếu chúng ta lấy thời gian để làm thước đo cho quá trình tập đi thì trong một nghiên cứu mới đây, các nhà khoa học đã tạo ra một con robot đã có thể học đi chỉ trong vòng một giờ và không cần lập trình trước.

Con robot đặc biệt này là một thiết bị bốn chân giống như một con chó con cơ học, nó có thể tự học cách đi lại mà không cần được hiển thị bất kỳ mô phỏng nào để hướng dẫn nó trước đó.

Con robot đặc biệt này là một thiết bị bốn chân giống như một con chó con cơ học.

Theo các chuyên gia, một nhà chế tạo robot sẽ cần thực hiện từng công việc mà họ muốn robot giải quyết, việc này có thể tốn nhiều thời gian và có thể khó khăn trong việc lập trình các hành vi ứng xử của robot đối với các tình huống bất ngờ.

Lerrel Pinto, đồng tác giả nghiên cứu và là trợ lý giáo sư khoa học máy tính tại Đại học New York, người chuyên về robot và máy học cho biết, kỳ tích này đã được thực hiện bởi một AI mà nhóm thiết kế và đặt tên là Dreamer.

Dreamer dựa trên một kỹ thuật được gọi là học tăng cường - "đào tạo" các thuật toán bằng cách phản hồi liên tục, và đứa ra những tín hiệu thưởng cho các hành động mong muốn chẳng hạn như hoàn thành thành công một nhiệm vụ. Theo một nghĩa nào đó, quá trình này tương tự như cách chúng ta tự học.

Cách tiếp cận phổ biến trong việc đào tạo robot là sử dụng mô phỏng máy tính để cho chúng nắm được những kiến thức cơ bản về bất cứ điều gì chúng đang làm trước khi bắt chúng thực hiện các nhiệm vụ tương tự trong thế giới thực.

"Vấn đề là trình mô phỏng của bạn sẽ không bao giờ chính xác như thế giới thực", Danijar Hafner, một nghiên cứu sinh về trí tuệ nhân tạo tại Đại học Toronto và đồng tác giả bài báo cho biết.

Điều đặc biệt ở Dreamer là nó sử dụng những kinh nghiệm trong quá khứ để tự xây dựng mô hình của thế giới xung quanh và tiến hành tính toán thử-sai trong một mô phỏng dựa trên mô hình này.

Robot có thể thử những gì nó học được trong phòng thí nghiệm.

Nói cách khác, nó có thể thực hiện nhiệm vụ của mình bên trong một tấm gương giống như giấc mơ về thế giới của chúng ta bằng cách dự đoán kết quả tiềm năng của những hành động mà nó dự định thực hiện. Được trang bị kiến thức này, nó có thể thử những gì nó học được trong phòng thí nghiệm. Nó thực hiện tất cả những điều này một mình. Về cơ bản, nó đang dạy chính nó.

Cách tiếp cận này cho phép AI học nhanh hơn nhiều so với trước đây. Lúc đầu, tất cả những gì nó có thể xoay sở là vẫy chân trong không trung một cách bất lực. Mất khoảng 10 phút để nó tự lật người lại và khoảng 30 phút để thực hiện những bước đầu tiên. Tuy nhiên, một giờ sau khi thí nghiệm bắt đầu, nó có thể dễ dàng đi vòng quanh phòng thí nghiệm bằng đôi chân vững vàng.

Ngoài việc tự dạy mình cách đi bộ, Dreamer sau đó có thể thích nghi với các tình huống bất ngờ, chẳng hạn như chống lại việc bị lật đổ bởi một trong các thành viên trong nhóm.

Kết quả cho thấy những thành tựu đáng kinh ngạc mà học tăng cường sâu có thể đạt được khi được ghép nối với các mô hình từ, đặc biệt khi xem xét rằng robot không nhận được hướng dẫn trước. Việc sử dụng song song hai hệ thống này đã cắt giảm đáng kể thời gian đào tạo truyền thống kéo dài cần thiết trong quá trình học tăng cường thử-và-sai cho robot.

Hơn nữa, việc loại bỏ nhu cầu đào tạo robot bên trong mô phỏng và cho phép chúng thực hành bên trong mô hình thế giới của chúng thay vào đó có thể cho phép chúng học các kỹ năng trong thời gian thực - cung cấp cho chúng công cụ để thích ứng với các tình huống bất ngờ như lỗi phần cứng. Nó cũng có thể có các ứng dụng trong các nhiệm vụ phức tạp, khó khăn như lái xe tự hành.

Sử dụng cách tiếp cận này, nhóm đã huấn luyện thành công ba robot khác nhau để thực hiện các nhiệm vụ khác nhau, chẳng hạn như nhặt bóng và di chuyển chúng giữa các khay.

Một nhược điểm của phương pháp này là nó rất tốn thời gian để thiết lập ban đầu. Các nhà nghiên cứu cần chỉ rõ trong mã nguồn rằng những hành vi nào là tốt - và do đó nên được khen thưởng - và hành vi nào không được phép. Mỗi và mọi nhiệm vụ hoặc vấn đề mà robot phải giải quyết sẽ cần được chia nhỏ thành các nhiệm vụ phụ và mỗi nhiệm vụ phụ được xác định theo nghĩa tốt hoặc xấu. Điều này cũng làm cho nó rất khó để lập trình cho các tình huống bất ngờ.

Các nhà nghiên cứu đang hy vọng trong tương lai có thể dạy robot hiểu các mệnh lệnh bằng lời nói, cũng như gắn camera cho chó robot để tạo cho nó khả năng nhìn và cho phép nó di chuyển trong các tình huống phức tạp trong nhà, và thậm chí có thể chơi trò tìm kiếm.

Cập nhật: 25/07/2022 Trí Thức Trẻ