Các nhà nghiên cứu tại Đại học Stanford phát triển một chương trình máy tính mang tên NeuralTalk với khả năng phân tích và diễn đạt những gì đang diễn ra trong một bức ảnh với độ chính xác khá cao.
Đại học Stanford phát triển phần mềm nhận biết được vật thể và điều đang diễn ra trong bức ảnh
NeuralTalk có cách hoạt động tương tự như mạng nơ ron nhân tạo do Google phát triển và giới thiệu cách đây không lâu nhưng mức độ "thông minh" được cho là vượt trội hơn rất nhiều.
Dự án NeuralTalk và những nghiên cứu đi kèm được công bố hồi đầu năm nay bởi nghiên cứu sinh Fei-Fei Li, trưởng phòng thí nghiệm trí thông minh nhân tạo tại Đại học Stanford. Về cơ bản, hệ thống này có khả năng nhìn vào một bức ảnh với bối cảnh phức tạp và xác định chính xác điều gì đang diễn ra. Thí dụ như trong bức ảnh mà các bạn thấy bên dưới, hệ thống đã xác định được các vật thể nằm trong bức ảnh như một người đàn ông, một con mèo, một cái laptop và thú vị hơn, nó có thể biết được rằng "một người đang ông đang sử dụng laptop trong khi con mèo của ông ấy đang nhìn vào trong màn hình."
Một hình ảnh được nhận diện hoàn toàn chính xác, rất tuyệt vời!
Như đã nói ở trên, cách hoạt động của NeuralTalk tương tự như hệ thống mạng nơ ron nhân tạo do Google phát triển. Nó dùng mạng nơ ron để phân tích bức ảnh, so sánh những gì nó "thấy được" với những hình ảnh "đã nhìn thấy trước đó" và diễn tả bức ảnh bằng các câu có nghĩa. Một khi NeuralTalk học được những điều cơ bản của thế giới (như cửa sổ trông như thế nào, cái bàn trông ra sao, cảnh tượng con mèo sắp ăn như thế nào,…) thì nó hoàn toàn có thể áp dụng sự hiểu biết đó vào những hình ảnh và video cụ thể.
Một hình ảnh mà hệ thống không thể nhận diện chính xác được một cặp chồng với chiếc bánh sinh nhật trong vườn thì lại bị cho là "người phụ nữ đang chải tóc cho một bé gái bên ngoài"
Tuy nhiên, không phải lúc nào hệ thống cũng có thể cho ra những kết quả hoàn hảo, lắm lúc câu diễn đạt hoàn toàn khác với những gì có trong bức ảnh. Như trong bức ảnh 2 người đàn ông đang cầm ván trượt trên bãi biển thì hệ thống cho là "con người đang đi bộ trên bãi biển mang theo túi đựng máy ảnh" hoặc một cặp chồng với chiếc bánh sinh nhật trong vườn thì lại bị cho là "người phụ nữ đang chải tóc cho một bé gái bên ngoài". Tuy nhiên, trong hầu hết các bức ảnh, ngoài danh sách những vật thể nhận ra thì hệ thống còn trả về những câu miêu tả phụ và trong đó có những câu nói đúng về bức ảnh. Nhóm nghiên cứu đã tạo nên một trang web, trong đó demo khả năng hiện tại của hệ thống, có cả đúng lẫn sai. Các bạn có thể truy cập vào để xem thêm rất nhiểu ảnh nếu thích. (Link)
Một ổ bánh mì đã được nhận diện khá chính xác
Cho tới gần đây, lượng thông tin khổng lồ trên internet đều được dán nhãn thủ công bởi con người để có thể tìm kiếm được. Thậm chí khi Google mới phát triển Google Maps, cả một đội ngũ nhân viên phải kiểm tra thủ công từng mục để đảm bảo các ký hiệu trên bản đồ là đúng. Sau đó, họ tạo ra Google Brain và những việc trước đó nhóm mất 1 tuần để làm thì hệ thống chỉ mất 1 giờ. Thời gian gần đây, người ta bắt đầu chú ý tới kỹ thuật dụng mạng nơ ron, "dạy chúng học" sau đó sử dụng chúng để phân tích thành phần của bức ảnh thay vì chỉ tập trung vào những vật thể đơn giản.
Lần này, cách tiếp cận của nhóm nghiên cứu tại Stanford còn độc đáo hơn ở chỗ sau khi nhận diện được hình ảnh, hệ thống còn có khả năng trả về kết quả bằng câu diễn đạt có nghĩa. Cách làm này có thể được áp dụng nhằm nâng độ độ chính xác và trải nghiệm người dùng trong lúc tìm kiếm hình ảnh, khi đó, người dùng chỉ cần gõ chính một câu tự nhiên để tìm kiếm, thay vì đi tìm trong số hàng tỷ hình ảnh, hệ thống sẽ dựa vào danh từ, động từ,… trong câu truy vấn đề cho ra kết quả tốt hơn. Ngoài ra, công nghệ này còn được áp dụng để quét hình ảnh thời gian thực, trang bị trên các phương tiện giao thông, kính thực tế ảo,… và có thể, một chiếc kính như Terminal hay Robocop không phải là tương lai quá xa xôi nữa.