Các nhà khoa học máy tính vừa phát triển thành công một hệ thống máy tính chơi bài mới, có tên Pluribus. Tại sao lại có thể khẳng định Pluribus thành công? Nó có thể đánh bại một số tuyển thủ Texas hold’em poker hàng đầu thế giới, trở thành một trong những đột phá quan trọng nhất trong ngành trí tuệ nhân tạo.
Hai năm trước, đội ngũ nghiên cứu tại Đại học Carnegie Mellon phát triển một hệ thống chơi bài poker khác có tên Libratus, có khả năng hạ bệ những người chơi poker hàng đầu thế giới trong những màn 1v1 căng thẳng. Hai người cha của Libratus, Tuomas Sandholm và Noam Brown đã vượt qua chính giới hạn mình đặt ra, phát triển thành công hệ thống có thể chơi Texas hold’em poker trong một bàn 6 người. Thành quả lần này là sự kết hợp giữa phòng thí nghiệm AI của Facebook và Đại học Carnegie Mellon.
Trong quá trình thử nghiệm, Pluribus chứng minh được khả năng của mình khi đánh bại được đối thủ của mình, với với hiệu năng được đánh giá là “siêu phàm”. Khi đến màn “chơi poker kiếm tiền”, Pluribus chiến thắng thuyết phục và kiếm được trung bình 1.000 USD/giờ.
Pluribus chơi bài poker chiến thắng thuyết phục và kiếm được trung bình 1.000 USD/giờ.
Suốt nhiều thập kỷ qua, các nhà nghiên cứu AI đã đạt nhiều thành công trong việc huấn luyện trí tuệ nhân tạo chơi được những trò “đơn giản”: tất cả thông tin đều nằm trước mắt, chỉ đối đầu với một đối thủ duy nhất, mọi nước đi đều hiện hữu cho cả hai người chơi đều thấy; hai ví dụ rõ ràng nhất là cờ vua hay cờ vây.
Poker khó hơn ở chỗ đa số thông tin về ván chơi đều bị ẩn đi - như những quân bài trên tay đối thủ hay vẫn còn đang nằm trong bộ, những quyết định của người chơi trong một ván poker lại càng khiến trò chơi thêm phần khó đoán và phức tạp. Càng đưa thêm nhiều người chơi vào, độ khó sẽ càng tăng thêm.
Với các nhà nghiên cứu AI, poker mới là trò chơi đáng để hệ thống máy luyện tập. Bởi lẽ đời không như bàn cờ vua, với mọi thông tin đều nằm trên bàn và phân định rõ kẻ thắng người thua. Bằng việc cho trí tuệ nhân tạo xử lý những thông tin ẩn để đưa ra quyết định tốt nhất, các nhà khoa học máy tính có thể nới rộng phạm vi áp dụng AI ra nhiều lĩnh vực khác.
Với các nhà nghiên cứu AI, poker mới là trò chơi đáng để hệ thống máy luyện tập.
“Chúng tôi không tập trung vào bất kỳ ngành nghề nào, chỉ nghĩ rằng nghiên cứu này có thể áp dụng lên rất nhiều khía cạnh như bảo mật mạng, phát hiện lừa đảo, phân tích chiến thuật đối phương, thậm chí giúp xe tự lái di chuyển trên đường đông đúc”, nhà nghiên cứu Brown nói.
Trong nghiên cứu mới, Sandhold và Brown cho Pluribus đối mặt với hai bài thử khó nhằn. Thử nghiệm đầu tiên yêu cầu Pluribus đối mặt với 13 cao thủ poker chuyên nghiệp, ai trong số đó cũng đã kiếm được hơn 1 triệu USD trong sự nghiệp mình. Một ván poker sẽ gồm 6 người, một Pluribus đối mặt với 5 người chơi chuyên nghiệp khác.
Trong bài thử thứ hai, Pluribus đối mặt với hai huyền thoại poker thế giới là Darren Elia và Chris “Jesus” Ferguson. Mỗi người trong số họ sẽ đối địch với 5 cỗ máy Pluribus trong một ván bài 6 người. Nếu như Pluribus có tuyến mồ hôi, chắc hẳn nó sẽ vã ra như tắm khi phải đối diện với Darren Elia - người giành được tới 4 danh hiệu World Poker Tour, hiện đang giữ kỷ lục số lượng giải và Chris “Jesus” Ferguson, người từng thắng 6 sự kiện World Series Poker tổ chức tại Las Vegas.
Trong thử nghiệm đầu tiên, 5 người chơi và Pluribus đã lên tổng cộng 10.000 bài và chơi hết 12 ngày. Tổng 14 người (đúng ra chỉ có 13 người và một máy) sẽ được chia đều 50.000 USD, sẽ không người nào biết mình mình đang chơi với một cỗ máy, và cũng không hay danh tính của các đối thủ.
Ở thử nghiệm thứ hai, Elia và Ferguson lần lượt đối mặt với 5 cỗ máy Pluribus. Họ đã lên tổng cộng 5.000 bài.
Mọi chiến thắng của Pluribus đều được xác nhận “vượt xa trong mọi mọi con số thống kê”.
Trong tất cả các trường hợp đặt ra, mọi chiến thắng của Pluribus đều được xác nhận “vượt xa trong mọi mọi con số thống kê”. Trong báo cáo nghiên cứu, họ gọi năng lực của Pluribus là siêu phàm - superhuman.
“Chúng tôi dùng từ đó bởi lẽ hiệu năng cỗ máy cao hơn cả những bộ não giỏi nhất”, nhà nghiên cứu Brown nói. “Ngay cả khi chơi với cao thủ, cứ mỗi 100 lần lên bài, cỗ máy thắng khoảng 5 lần big blind, các cao thủ đánh giá đây là tỷ lệ thắng rất cao”.
Nói một cách đơn giản, nếu quy đổi tỷ lệ thắng này ra tiền thật, thì Pluribus sẽ ẵm về khoảng 1.000 USD/giờ. Một lần nữa nhắc lại: đây là Pluribus đang đối đầu với các cao thủ poker! Nhà khoa học máy tính Roman Yampolskiy, người không góp mặt trong nghiên cứu mới, cũng đồng ý nhận định cỗ máy Pluribus có khả năng siêu phàm.
“Nếu cỗ máy có thể cho thấy sức mạnh siêu phàm bằng cách đánh bại những người chơi hàng đầu thế giới, nó có thể đả bại những người kém hơn, đồng nghĩa với việc khả năng của nó trong lĩnh vực này thuộc hàng siêu đẳng”, ông Yampolskiy nhận định.
Đây là thành tựu đáng lưu ý, bởi khác với cờ vây hay cờ vua, poker chứa rất nhiều thông tin ẩn và có cả yếu tố may mắn, đồng nghĩa với việc một cỗ máy sẽ không thể vượt mặt người chơi chỉ bằng khả năng tính tỷ lệ đơn thuần. Từ những ngày đầu nhân loại phát triển trí tuệ nhân tạo, poker đã là mục tiêu được nhắm tới.
Từ những ngày đầu nhân loại phát triển trí tuệ nhân tạo, poker đã là mục tiêu được nhắm tới.
Trước thời điểm thử nghiệm thực tế, Pluribus đã được tập luyện bằng cách tự chơi poker với mình. Sau 8 ngày liên tục “xòe quạt”, nó tự sản sinh ra được một chiến thuật riêng.
“Pluribus không sử dụng dữ liệu người chơi poker để tự tạo chiến thuật. Nó làm vậy bằng cách tự chơi, lên tới ngàn tỷ bài để ra được một chiến thuật cơ bản. Càng chơi, chiến thuật càng cải thiện và càng có kết quả tốt hơn”, nhà nghiên cứu Brown giải thích.
“Với Pluribus, chúng tôi thực hiện một phương án tìm kiếm chiến thuật mới, không yêu cầu cỗ máy tìm ra được cách thắng cả ván poker. Thay vào đó, nó có thể dừng sau khi chơi vài ván. Những quãng nghỉ khiến thuật toán có thể tăng quy mô lên hiệu quả hơn. Cụ thể, nó có phép chúng tôi đạt tới sức mạnh tính toán siêu phàm với thời gian huấn luyện ngắn, chỉ tốn dưới 150 USD để thuê dịch vụ điện toán đám mây để huấn luyện Pluribus, đấy là còn liên tục chơi trên thời gian thực với chỉ hai CPU”.
Thậm chí với thời gian huấn luyện ngắn, Pluribus vẫn vượt mặt được cao thủ poker thế giới.
Quan trọng nhất, Pluribus được lập trình để trở nên khó đoán - khả năng tối quan trọng để một người có thể chơi poker thành công. Nếu Pluribus liên tục đẩy tiền to khi biết trên tay có bài tốt, đối thủ sẽ nhận ra ngay. Để khắc phục điều này, Pluribus được huấn luyện để chơi một cách cân bằng, không thiên về chiều hướng đặt tiền nào cả, ngăn người chơi đoán được ý đồ của Pluribus.
Pluribus được huấn luyện để chơi một cách cân bằng, không thiên về chiều hướng đặt tiền nào cả.
Có hai điều Pluribus khiến các cao thủ poker cực kỳ ngạc nhiên:
- Khả năng donk bet rất hiệu quả. Đây là bước đặt tiền thường chỉ có người mới chơi poker mắc phải, hoặc phải được tính toán kỹ lưỡng để donk bet đúng thời điểm. Kể cả những cao thủ cũng ít khi sử dụng cách thức này, nhưng Pluribus chứng minh cho họ thấy nếu có khả năng tính toán siêu phàm của một cái máy tính, donk bet lại biến thành một công cụ “làm tiền” hiệu quả.
- Khả năng đặt những số tiền rất lớn, việc mà người chơi poker thường tránh. Chiến thuật này cho phép Pluribus đẩy người chơi vào thế khó, khi nó biết bài trên tay mình “cao” đến đâu.
“Lại một lần nữa, trí tuệ nhân tạo lại vượt mặt con người mà không cần tới dữ liệu về cách chơi tới từ con người”, nhà nghiên cứu Yampolskiy nói. “Đồng nghĩa với việc máy móc có thể tự dạy mình cách giải ra những vấn đề phức tạp mà không cần con người can thiệp”.
Yampolskiy không ngạc nhiên trước sức mạnh của Pluribus, và rất muốn xem nó xoay sở ra sao trên một bàn poker 10 người, không bị luật lệ ràng buộc (trong thử nghiệm mới, Pluribus không được phép đẩy vào hơn 10.000 USD).
Sức mạnh tính toán và phân tích tình huống của AI ngày một tiến bộ. Một ngày nào đó, những cỗ máy mạnh hơn cả Pluribus sẽ đưa ra những quyết định ảnh hưởng tới nền kinh tế, chính trị hợp lý đến mức ta không thể không nghe theo.
Chỉ mong máy móc không đủ khôn để có nhận thức, mãi là cỗ máy vô tri.
Nghiên cứu mới đã được đăng tải trên Science.