Nghiên cứu mới nhất cho thấy máy tính có thể hiểu tới hơn 90% những điều được nói chỉ bằng cách quan sát cử động môi mà không cần nghe âm thanh.
Theo trang khoa học Technology Review, khả năng đọc cử động của môi người khi nói là điều đặc biệt khó khăn vì còn tùy thuộc vào ngữ cảnh cũng như hiểu biết về ngôn ngữ tự nhiên được nói, căn cứ theo các chuyển động của miệng khi phát âm.
Tuy nhiên, các nhà nghiên cứu vừa chứng minh rằng thuật toán machine learning có thể hiểu được những ngôn ngữ được nói ra trong các đoạn video câm (không có âm thanh) còn hiệu quả hơn cả những người chuyên đọc tín hiệu của môi.
Trí tuệ nhân tạo (AI) và machine learning có thể hiểu được ý nghĩa nội dung của những cử động mấp máy môi người, độ chính xác cao hơn người có khả năng đọc mấp máy môi - (Ảnh: TechnologyReview).
Cụ thể, trong dự án nghiên cứu thứ nhất, nhóm nghiên cứu của Khoa Khoa học máy tính Đại học Oxford đã phát triển hệ thống trí tuệ nhân tạo (AI) mới có tên là LipNet. Hệ thống này được xây dựng trên bộ dữ liệu có tên là GRID vốn được tạo ra từ hàng loạt các đoạn clip quay lại hình ảnh mọi người mấp máy cử động môi ra sao khi đọc những câu có độ dài 3 giây. Mỗi câu này đều dựa trên một chuỗi các từ có dạng thức mấp máy môi tương tự.
Theo đó nhóm nghiên cứu đã sử dụng bộ dữ liệu để "đào luyện" một mạng "thần kinh nhân tạo" (neural network), tương tự như loại thường được sử dụng để xử lý quá trình nhận diện tiếng nói.
Nhưng trong trường hợp này, mạng thần kinh nhân tạo lại có nhiệm vụ xác định những dạng thức khuôn miệng khác nhau, học cách kết nối thông tin đó với phần nội dung giải thích những gì đang được nói ra.
Khi thử nghiệm,hệ thống trí tuệ nhân tạo này đã có thể xác định được tới 93,4% chính xác các từ đã được nói. Các tình nguyện viên tham gia thử nghiệm đọc máy môi thực hiện nhiệm vụ tương tự mà máy đã làm và chỉ xác định được các từ với tỉ lệ chính xác là 52,3%.
Bên cạnh dự án này, trang New Scientist còn dẫn ra một dự án nghiên cứu khác của nhóm nghiên cứu thuộc Khoa Khoa học kỹ thuật của Đại học Oxford. Trong đó, nhóm này tiến hành công việc tương tự nhưng với hệ thống DeepMind của Google và thực hiện ở cấp độ khó khăn hơn.
Thay vì sử dụng bộ dữ liệu sạch và liên tục như GRID, họ sử dụng một loạt 100.000 video clip cắt ra từ các chương trình của đài BBC. Các đoạn băng này có quy mô sử dụng ngôn ngữ rộng hơn nhiều và sự đa dạng trong tư thế đầu của người nói và môi trường ánh sáng khác nhau.
Công nghệ đọc máy môi trí tuệ nhân tạo DeepMind của Google - (Ảnh: Yahoo).
Sử dụng một phương pháp xử lý tương tự, nhóm nghiên cứu đã tạo ra được công nghệ trí tuệ nhân tạo có khả năng xác định được các từ chính xác với tỉ lệ 46,8%. Như vậy cũng đã là tốt hơn nhiều so với con người khi chỉ đạt 12,4% tỉ lệ chính xác trong dự án này.
Ở dự án nghiên cứu thứ hai, có những lý do rất rõ ràng cho thấy vì sao độ chính xác thấp hơn dự án trước, từ sự đa dạng về ánh sáng trong các clip cho tới những tư thế đa dạng của người nói và độ phức tạp hơn nhiều của ngôn ngữ sử dụng.
Tuy nhiên, bất kể những khác biệt, cả hai dự án nghiên cứu đều cho thấy trí tuệ nhân tạo đều đã vượt trội hơn nhiều so với con người về khả năng đọc mấp máy môi. Cũng không khó gì để người ta có thể hình dung về các ứng dụng tiềm năng cho công nghệ này.