Các nhà khoa học vừa tạo ra AI đánh bại AI "xịn" nhất thế giới

3.099

Loài người chúng ta hầu như đã chấp nhận một sự thật phũ phàng là chúng ta sẽ không bao giờ chơi cờ giỏi như robot. Nhưng nay, ngay cả robot cũng phải đau đớn thừa nhận chúng sẽ không bao giờ giỏi như... những con robot khác.

Một nền tảng trí tuệ nhân tạo mới, được biết đến với tên gọi AlphaZero, có thể tự học chơi cờ vây, cờ vua và cờ Shogi mà không cần bất kỳ sự can thiệp nào từ con người. Tận dụng mạng thần kinh sâu, AlphaZero nhanh chóng học chơi các loại cờ này "để trở thành đấu thủ mạnh nhất trong lịch sử".

AlphaZero là sản phẩm của DeepMind Technologies. Đây là công ty AI của Anh - và là công ty con của Alphabet - chuyên nghiên cứu về AI trong nhiều năm trời. Vào năm 2017, DeepMind cho nhà vô địch AI thời điểm đó là AlphaGo "về hưu", nhưng vẫn tiếp tục công việc nghiên cứu AI của mình. Với AlphaZero, công cuộc nghiên cứu của DeepMind đã bước vào thời kỳ đỉnh cao.

AlphaZero đã được mang ra thách đấu với những AI "xịn" nhất thế giới trong 3 trò chơi đánh cờ:

Stockfish, AI chơi cờ vô địch thế giới.
elmo, quán quân Giải vô địch Cờ Shogi Máy tính Thế giới thường niên lần thứ 27 vào năm 2017.
AlphaGo Zero, AI chơi cờ vây của chính DeepMind, được cho là đấu thủ cờ vây mạnh nhất trong lịch sử.

Cờ vua
AlphaZero không cần con người hướng dẫn nó bất kỳ điều gì.

Trong cả 3 trận đấu, AlphaZero chỉ được cung cấp kiến thức về luật chơi cơ bản. Trước khi vào trận với các AI nói trên, nó đã nhanh chóng tự chơi với mình hàng triệu trận đấu, ban đầu là thử nhiều chiến thuật ngẫu nhiên để chiến thắng, sau đó dần dần biết được những chiến thuật nào hiệu quả nhất thông qua một quá trình thử đi thử lại gọi là "học tăng cường".

QUá trình huấn luyện và học hỏi mất 9 giờ với môn cờ vua, 12 giờ với cờ Shogi, và 13 ngày với cờ vây, sử dụng 5.000 đơn vị xử lý tensor (TPU). Dành cho những bạn chưa biết, chỉ một TPU duy nhất đã có thể xử lý hơn 100 triệu bức ảnh trên Google Photos mỗi ngày, do đó AlphaZero thực sự là một con quái vật xét về khả năng xử lý. Một khi quá trình học hỏi đã kết thúc, AlphaZero được "thả ra" để giao đấu với các đối thủ khác.

Tất nhiên, AlphaZero đè bẹp tất cả chúng.

Điểm độc nhất về nghiên cứu này là thuật toán học hỏi được kết hợp với một "phương thức tìm kiếm" gọi là "Monte Carlo tree search" (MCTS). Đây là một phương thức mà các chương trình AI chơi cờ vây sử dụng để xác định nên thực hiện nước đi nào tiếp theo. Nhóm DeepMind đã sử dụng hệ thống này để giúp AlphaZero học chơi cờ vua và cờ Shogi, lần đầu cho thấy MCTS có thể được thích nghi hoá vào các trò chơi phức tạp khác.

Có lẽ điều khiến những người chơi cờ vua thích thú nhất là AlphaZero không cần con người hướng dẫn nó bất kỳ điều gì. Tự bản thân nó nghiên cứu các chiến thuật và đưa ra những ý tưởng điên rồ mà người ta chưa từng thấy trước đây. Phong cách chơi năng nổ và linh động cao độ của nó đã gây bất ngờ cho Đại kỳ thủ cờ vua Matthew Sadler.

Những chiến thuật và khả năng độc nhất nói trên đã biến AlphaZero thành một công cụ giảng dạy tuyệt vời dành cho những người chơi cờ - khuyến khích tạo ra những lối chơi chiến thuật chưa từng thấy.

Có lẽ câu chuyện "AI tiêu diệt loài người" cho đến nay không hề là tưởng tượng trong thế giới trò chơi, với việc robot liên tục đánh bại chúng ta ở các trò đánh chờ, hay các trò chơi trực tuyến nhiều người chơi như DOTA 2, và tất nhiên, cờ vây nữa.

Liệu điều đó có nghĩa là AI sẽ đánh bại chúng ta trong mọi trò chơi đối kháng từng được phát minh ra? Có lẽ là không. Dù cả 3 trò chơi mà DeepMind thử sức ở trên đều khá phức tạp, chúng thực ra có sẵn một số lợi thế đối với AI, như việc nó gồm 2 người chơi và mọi thông tin cần thiết để thực hiện nước đi tiếp theo đều đã có sẵn trên bàn đấu.

Do đó, dù AI chắc chắn sẽ soán ngôi chúng ta trong các trò chơi cờ, chúng sẽ không có cửa khi đấu tú lơ khơ hay xì lát với con người đâu!