Công nghệ chuyển voice-mail thành... văn bản

Tại sao bạn phải nghe các lời nhắn thoại (voice mail) dài lê thê trên ĐTDĐ trong khi hoàn toàn có thể đọc chúng bằng mắt? Đó là ý tưởng do một nhóm các công ty mới đặt ra và giải quyết, họ đang phát triển loại phần mềm có khả năng chuyển các thông điệp thư nói thành những bức email hoặc tin nhắn dạng văn bản.

Xu hướng dịch vụ mới nổi

Nói chung, với những ai từng nhận những bức voice mail của bạn bè, người thân, đồng nghiệp và đôi khi để nghe được những nội dung cần thiết, người ta phải mất vài phút để tiếp nhận cả những thông tin rườm rà. Chính vì thế, một nhóm các công ty mới như Simulscribe, SpinVox và Callwave đã nghĩ tới giải pháp khắc phục tình trạng này cho những người bận rộn, chấm dứt cảnh phải nghe những bức thư quá dài một cách không cần thiết.

Mặc dù trong xu thế hiện đại, ĐTDĐ ngày càng được sử dụng với nhiều công năng khác nhau, từ gửi tin nhắn cho tới lướt Net nghe nhạc, song chức năng chính của nó vẫn là đàm thoại. Các phần mềm mới như kiểu voice-to-text (chuyển từ âm thanh sang văn bản) là một phần của xu hướng dịch vụ đang rất phát triển dựa trên nền tảng công nghệ nhận dạng giọng nói.

Một minh chứng cho thấy công nghệ nhận dạng giọng nói đang rất “hot” tại thời điểm hiện tại chính là bản hợp đồng mới đây giữa Microsoft và Tellme. Hồi tháng 3 qua, đại gia phần mềm cho biết sẽ mua nhà sản xuất phần mềm nhận dạng giọng nói Tellme Networks với bản hợp đồng ước tính khoảng 800 triệu USD. Gần đây, Tellme đã bắt đầu thử nghiệm loại phần mềm sử dụng chức năng ra lệnh bằng giọng nói trên ĐTDĐ, theo đó, người dùng chỉ cần nói to thông tin họ cần tìm và ngay lập tức, dữ liệu thông tin đó sẽ được chuyển tới ĐTDĐ của họ.

Rằng hay thì thật là hay…

Thực tế cho tới nay công nghệ nhận dạng giọng nói cũng không mới mẻ gì. Hầu hết các dòng điện thoại thời thượng hiện tại đều cung cấp một kiểu giao diện giọng nói nào đó giúp người dùng ra lệnh cho điện thoại bằng miệng kiểu như: “Hãy gọi điện cho Meggie” hay “Hãy kết nối với tai nghe bằng Bluetooth”.

Song theo ông Charles Golvin, chuyên gia phân tích của hãng nghiên cứu Forrester, rắc rối đáng kể nhất vẫn là để làm được như vậy, các điện thoại đó phải cần thêm một chút “huấn luyện” để nhận dạng được giọng nói của người ra lệnh. Cụ thể, với mỗi lệnh muốn phát huy tác dụng, người dùng phải tự mình ghi âm câu lệnh của mình trước.

Để giải quyết rắc rối này, các nhà cung cấp dịch vụ di động như Sprint Nextel và Cingular Wireless của AT&T đã đưa ra các loại dịch vụ có sử dụng chức năng giọng nói dựa trên nền tảng mạng. Dịch vụ đó cho phép người dùng tải danh sách các liên hệ lên máy chủ và mỗi khi cần gọi cho ai, người dùng chỉ việc nói tên người đó. Do vậy, người dùng sẽ không phải mất thời gian để “đào tạo” cho thiết bị cũng như ghi âm trước câu lệnh. Thay vào đó, họ chỉ cần ấn lên phím *1 hay một mã nào đó trên bàn phím để bật phần mềm này lên rồi nói tên người cần gọi là xong.

Nhưng theo ông Golvin, những dịch vụ kiểu này lại phát sinh ra hai vấn đề khác. Thứ nhất, công đoạn tải danh sách liên hệ khá khó khăn và tương đối cồng kềnh. Thứ hai, nhà cung cấp dịch vụ tính phí mỗi tháng 5 USD để sử dụng dịch vụ, đây là mức phí quá cao người dùng vì họ đã phải trả thêm 15 đến 20 USD cho thuê bao di động.

Ông Golvin nói: “Mặc dù nghe thì có vẻ đây là dịch vụ rất hấp dẫn, nhưng thực tiễn nó khó có thể đi vào thực tiễn cuộc sống được. Tôi nghĩ, đó chỉ là dịch vụ bán kèm nên mức giá như vậy chắc sẽ không hấp dẫn với nhiều người”.

Trăm hoa đua nở

Rõ ràng, các dịch vụ voice-to-text mới xuất hiện đang muốn sử dụng tính năng nhận dạng giọng nói theo hướng khác nhằm giải quyết vấn đề rất thực tiễn với những người phải tiếp nhận hàng đống voice mail mỗi ngày.

Thay vì việc phải mất tới 3 phút để nghe hết một bức voice mail, các dịch vụ như của SimulScribe và SpinVox giúp bạn nắm được ý chính của thông điệp đó và chuyển sang thành dạng một email hay tin nhắn SMS. Dạng thông điệp vắn tắt đó sẽ xuất hiện trong hộp thư điện tử của bạn sau khi voice mail “đọc xong” từ 2 đến 5 phút.

Tất cả mọi từ ngữ trong bức voice mail đó đều được hiện lên trong tin nhắn dạng văn bản hoặc email. Do đó, nếu người gửi voice mail cho gửi cho bạn số điện thoại hay nói với bạn về địa chỉ hẹn gặp thì phải cũng không phải vội vàng lục tìm bút trong ví hay ba lô để ghi lại. Với những bức thông điệp kiểu này, bạn cũng dễ dàng phân loại mức ưu tiên cho từng bức và biết ngay cần gọi lại ngay cho ai trước.

Hãng SimulScribe còn cho phép người dùng lưu và nghe lại các thông điệp đó ở dạng voice mail hay file .wav trong hộp thư. Hãng này cũng đã cung cấp dịch vụ voice-to-text tới các đối tượng người dùng Skype và hy vọng tới cuối năm nay có thể cung cấp được dịch vụ cho các khách hàng Vonage.

Còn SpinVox, một hãng cung cấp loại dịch vụ tương tự như SimulScribe ở châu Âu mới đây cho biết, Cincinnati Bell sẽ ra mắt dịch vụ voice-to-screen của hãng, loại dịch vụ giúp chuyển các bức voice mail thành dạng tin nhắn hoặc email.

Cũng tuần qua, SpinVox đã công bố loại dịch vụ viết blog mới trên mobile có tên Spin-my-Blog. Các blogger có thể dùng dịch vụ này để post các nội dung bằng tiếng nói lên blog từ bất cứ nơi đâu. Người dùng có thể dùng loại điện thoại nào cũng được để gọi tới số điện thoại định trước của Spin-my-Blog, ngay lập tức họ được tự động kết nối tới các blog của mình và khi đó, các nội dung sẽ được chuyển từ dạng nói sang dạng văn bản và post lên blog của họ.

Thời gian qua, một công ty khác là CallWave cũng đã trình làng dịch vụ voice-to-text của mình. Không giống SpinVox và SimulScribe là cung cấp bản chuyển đổi trực tiếp từ voice mail sang văn bản, hãng CallWave chỉ đưa ra dạng tóm tắt nội dung chủ yếu của thông điệp tiếng nói ấy.

Chất lượng vẫn cần được thẩm định

Theo nhận định của các chuyên gia phân tích, đúng là đang có một làn sóng mới xuất hiện của loại hình dịch vụ sử dụng công nghệ nhận dạng giọng nói, song cả công nghệ lẫn các dịch vụ sử dụng công nghệ này còn đang ở giai đoạn manh nha. Theo ông Roger Enter, chuyên gia phân tích viễn thông của Ovum Research, độ chính xác của những thông điệp được “phiên dịch” đó còn cần phải xem xét.

Ông nói: “Công nghệ nhận dạng giọng nói cũng như chuyển dịch dạng thức thông điệp đã có chất lượng tạm chấp nhận. Song nếu môi trường xung quanh quá ồn, chất lượng công nghệ chắc chắc sẽ giảm”.

Bà Jill Aldort, chuyên gia phân tích cao cấp của Yankee Group nhận định, tất cả các nhà cung cấp dịch vụ đều muốn tiếp cận nhiều khách hàng, song khó có thể thuyết phục người dùng bỏ thêm tiền để sử dụng loại dịch vụ voice-to-text này. Chẳng hạn với dịch vụ của SimulScribe, người dùng phải mất 9,95 USD một tháng. Số tiền này là chi phí cho 40 tin nhắn đầu tiên, còn kể từ tin nhắn thứ 41, mỗi tin sẽ được tính phí 25 cent.

Dẫu vậy thì bà này cũng thừa nhận loại dịch vụ nhận dạng giọng nói chắc chắn sẽ rất sôi nổi, nhất là những dịch vụ kiểu như của Tellme giúp tìm thông tin qua mạng.

Đỗ Dương