“Tiếng nói phương Nam – VOS” là một trong 10 sản phẩm có tiềm năng ứng dụng lớn đã lọt vào vòng chung kết cuộc thi Nhân tài Đất Việt 2009 và được ban giám khảo đánh giá chất lượng cao cả ở mức độ tự nhiên và dễ nghe.
Theo đại diện nhóm tác giả, tổng hợp tiếng nói (Text to speech – TTS) là quá trình tạo ra giọng nói nhân tạo trên máy tính từ những dữ liệu đầu vào là văn bản. Phương thức này đã phát triển trên thế giới từ rất sớm (năm 1930) và hiện tại Việt Nam cũng có những sản phẩm có chức năng này ra đời. Nhưng những sản phẩm trong nước vẫn còn nhiều hạn chế như chất lượng giọng tổng hợp chưa tự nhiên, tập từ vựng có thể tổng hợp được còn hạn chế,... Do đó, mô hình hệ thống này vẫn chưa được ứng dụng rộng rãi.
Tiếng nói tự nhiên và rõ ràng
Xuất phát từ khả năng ứng dụng lớn của sản phẩm và nhu cầu ngày càng nhiều, nhóm tác giả gồm 3 thành viên tại phòng thí nghiệm AI LAB (trường ĐH KHTN TP.HCM) đã xây dựng và phát triển sản phẩm trong thời gian 2 năm (từ 8/2007 đến 8/2009). Sản phẩm có tên gọi là “Tiếng nói phương Nam – VOS” và ra đời với mục tiêu tạo ra một bộ tổng hợp tiếng nói Việt với chất lượng giọng nói tự nhiên, rõ ràng và tập hợp từ vựng lớn, gần như toàn bộ từ vựng tiếng Việt.
Sản phẩm được phát triển theo phương pháp tổng hợp ghép nối với các cải tiến nhằm khắc phục tối đa những hạn chế hiện có của các hệ thống tổng hợp tiếng nói của tiếng Việt hiện nay để cho chất lượng âm phát ra tự nhiên nhất. Theo đại diện nhóm tác giả, để tạo cho tiếng nói phát ra tự nhiên và dễ nghe hơn, quá trình tổng hợp đã được thực hiện một cách mềm dẻo như đơn vị ngữ âm không nhất thiết phải là âm tiết mà có thể là từ hoặc cụm từ. Các đơn vị này sẽ được phân đoạn một cách tự động trên mỗi câu thu âm bằng cách sử dụng phương pháp nhận dạng tiếng nói có ràng buộc. Do đó, hệ thống tổng hợp tiếng nói này sẽ làm cho các điểm nối được trơn chu hơn, tăng tính tự nhiên của chuỗi lời nói.
Ứng dụng rộng rãi
Công nghệ tổng hợp tiếng nói có thể ứng dụng trên nhiều lĩnh vực khác nhau trong đời sống xã hội, đặc biệt là lĩnh vực truyền thông, tự động hóa, giáo dục,...
Hệ thống TTS có thể được áp dụng trong các ứng dụng truy vấn thông tin qua tổng đài điện thoại để trả lời tự động và có thể hoạt động 24/7 đáp ứng được nhu cầu về thông tin của người dùng, đặc biệt là các thông tin nóng có tính cập nhật nhanh. Ví dụ: hệ thống truy vấn bản tin bóng đá, hệ thống truy vấn chỉ số chứng khoán,...
Bên cạnh đó, TTS còn có thể kết hợp với các ứng dụng trên máy tính để tăng tính tiện ích cho người dùng như tích hợp vào trình duyệt web để đọc các thông tin trên web hoặc tích hợp vào hệ điều hành để đọc các thông tin trợ giúp. Do đó, các ứng dụng dạng này mang lại nhiều tiện ích cho người dùng, đặc biệt là những người gặp khó khăn trong việc đọc (người khiếm thị, có tật về mắt,...).
Hơn nữa, không chỉ giới hạn trên máy tính, hệ thống TTS còn có thể ứng dụng trên các thiết bị khác như xe hơi có sử dụng hệ thống định vị GPS để đưa ra chỉ dẫn đường đi ở dạng âm thanh nhằm giúp cho người lái xe không phải liên tục vừa nhìn vào màn hình GPS vừa lái xe. Ngoài ra, hệ thống TTS có thể kết hợp với các công nghệ khác để đưa ra cảnh báo cho người lái xe, chẳng hạn cảnh báo có xe sắp vượt, cảnh báo có xe phía trước ở khoảng cách gần, cảnh báo hết nhiên liệu,...
Theo tác giả, việc sử dụng hệ thống TTS để cảnh báo bằng tiếng nói sẽ gần gũi và nhận được nhiều sự chú ý của người lái xe hơn so với các cảnh báo bằng văn bản hoặc tiếng động như hiện tại.
Trong lĩnh vực giáo dục, hệ thống TTS có thể được sử dụng để xây dựng các ứng dụng dạy học. Một ứng dụng đặc biệt có thể kể đến là dạy phát âm cho các ứng dụng dạy ngoại ngữ. Các ứng dụng dạng này có thể giúp các học viên nhút nhát có thể tự tập luyện ở nhà thay vì phải tập luyện trên lớp có giảng viên và các học viên khác. Mặt khác, học viên có thể tự điều chỉnh thời lượng học cho phù hợp với khả năng tiếp thu và thời gian biểu của mình.
Hiện người dùng quan tâm có thể truy cập vào trang web http://www.ailab.hcmus.edu.vn/slp/vos để thử dùng miễn phí.
Tuy nhiên sản phẩm cũng còn có hạn chế. Theo đại diện tác giả, chất lượng của tập tin âm thanh tổng hợp trong một số trường hợp vẫn chưa thật tự nhiên và có thể nhận ra sự khác biệt giữa các đoạn nối. Còn về tiếng nước ngoài, dù nhóm tác giả đã cố gắng xử lý khá nhiều trường hợp nhưng do dựa trên phương pháp thống kê nên vẫn chưa thể giải quyết hoàn toàn các trường hợp có thể xảy ra.
Sản phẩm sẽ được cung cấp miễn phí. Tuy nhiên, nếu các tổ chức hoặc doanh nghiệp muốn ứng dụng cho các sản phẩm của mình thì có thể liên hệ với các tác giả để được chuyển giao công nghệ. Trong thời gian tới, các thành viên nhóm sẽ tiếp tục phát triển để hoàn thiện bộ tổng hợp tiếng nói này cũng như phát triển thêm các phiên bản cho thiết bị di động.
Theo đại diện nhóm tác giả, tổng hợp tiếng nói (Text to speech – TTS) là quá trình tạo ra giọng nói nhân tạo trên máy tính từ những dữ liệu đầu vào là văn bản. Phương thức này đã phát triển trên thế giới từ rất sớm (năm 1930) và hiện tại Việt Nam cũng có những sản phẩm có chức năng này ra đời. Nhưng những sản phẩm trong nước vẫn còn nhiều hạn chế như chất lượng giọng tổng hợp chưa tự nhiên, tập từ vựng có thể tổng hợp được còn hạn chế,... Do đó, mô hình hệ thống này vẫn chưa được ứng dụng rộng rãi.
Tiếng nói tự nhiên và rõ ràng
Xuất phát từ khả năng ứng dụng lớn của sản phẩm và nhu cầu ngày càng nhiều, nhóm tác giả gồm 3 thành viên tại phòng thí nghiệm AI LAB (trường ĐH KHTN TP.HCM) đã xây dựng và phát triển sản phẩm trong thời gian 2 năm (từ 8/2007 đến 8/2009). Sản phẩm có tên gọi là “Tiếng nói phương Nam – VOS” và ra đời với mục tiêu tạo ra một bộ tổng hợp tiếng nói Việt với chất lượng giọng nói tự nhiên, rõ ràng và tập hợp từ vựng lớn, gần như toàn bộ từ vựng tiếng Việt.
Sản phẩm được phát triển theo phương pháp tổng hợp ghép nối với các cải tiến nhằm khắc phục tối đa những hạn chế hiện có của các hệ thống tổng hợp tiếng nói của tiếng Việt hiện nay để cho chất lượng âm phát ra tự nhiên nhất. Theo đại diện nhóm tác giả, để tạo cho tiếng nói phát ra tự nhiên và dễ nghe hơn, quá trình tổng hợp đã được thực hiện một cách mềm dẻo như đơn vị ngữ âm không nhất thiết phải là âm tiết mà có thể là từ hoặc cụm từ. Các đơn vị này sẽ được phân đoạn một cách tự động trên mỗi câu thu âm bằng cách sử dụng phương pháp nhận dạng tiếng nói có ràng buộc. Do đó, hệ thống tổng hợp tiếng nói này sẽ làm cho các điểm nối được trơn chu hơn, tăng tính tự nhiên của chuỗi lời nói.
Ứng dụng rộng rãi
Công nghệ tổng hợp tiếng nói có thể ứng dụng trên nhiều lĩnh vực khác nhau trong đời sống xã hội, đặc biệt là lĩnh vực truyền thông, tự động hóa, giáo dục,...
Hệ thống TTS có thể được áp dụng trong các ứng dụng truy vấn thông tin qua tổng đài điện thoại để trả lời tự động và có thể hoạt động 24/7 đáp ứng được nhu cầu về thông tin của người dùng, đặc biệt là các thông tin nóng có tính cập nhật nhanh. Ví dụ: hệ thống truy vấn bản tin bóng đá, hệ thống truy vấn chỉ số chứng khoán,...
Bên cạnh đó, TTS còn có thể kết hợp với các ứng dụng trên máy tính để tăng tính tiện ích cho người dùng như tích hợp vào trình duyệt web để đọc các thông tin trên web hoặc tích hợp vào hệ điều hành để đọc các thông tin trợ giúp. Do đó, các ứng dụng dạng này mang lại nhiều tiện ích cho người dùng, đặc biệt là những người gặp khó khăn trong việc đọc (người khiếm thị, có tật về mắt,...).
Hơn nữa, không chỉ giới hạn trên máy tính, hệ thống TTS còn có thể ứng dụng trên các thiết bị khác như xe hơi có sử dụng hệ thống định vị GPS để đưa ra chỉ dẫn đường đi ở dạng âm thanh nhằm giúp cho người lái xe không phải liên tục vừa nhìn vào màn hình GPS vừa lái xe. Ngoài ra, hệ thống TTS có thể kết hợp với các công nghệ khác để đưa ra cảnh báo cho người lái xe, chẳng hạn cảnh báo có xe sắp vượt, cảnh báo có xe phía trước ở khoảng cách gần, cảnh báo hết nhiên liệu,...
Theo tác giả, việc sử dụng hệ thống TTS để cảnh báo bằng tiếng nói sẽ gần gũi và nhận được nhiều sự chú ý của người lái xe hơn so với các cảnh báo bằng văn bản hoặc tiếng động như hiện tại.
Trong lĩnh vực giáo dục, hệ thống TTS có thể được sử dụng để xây dựng các ứng dụng dạy học. Một ứng dụng đặc biệt có thể kể đến là dạy phát âm cho các ứng dụng dạy ngoại ngữ. Các ứng dụng dạng này có thể giúp các học viên nhút nhát có thể tự tập luyện ở nhà thay vì phải tập luyện trên lớp có giảng viên và các học viên khác. Mặt khác, học viên có thể tự điều chỉnh thời lượng học cho phù hợp với khả năng tiếp thu và thời gian biểu của mình.
Hiện người dùng quan tâm có thể truy cập vào trang web http://www.ailab.hcmus.edu.vn/slp/vos để thử dùng miễn phí.
Tuy nhiên sản phẩm cũng còn có hạn chế. Theo đại diện tác giả, chất lượng của tập tin âm thanh tổng hợp trong một số trường hợp vẫn chưa thật tự nhiên và có thể nhận ra sự khác biệt giữa các đoạn nối. Còn về tiếng nước ngoài, dù nhóm tác giả đã cố gắng xử lý khá nhiều trường hợp nhưng do dựa trên phương pháp thống kê nên vẫn chưa thể giải quyết hoàn toàn các trường hợp có thể xảy ra.
Sản phẩm sẽ được cung cấp miễn phí. Tuy nhiên, nếu các tổ chức hoặc doanh nghiệp muốn ứng dụng cho các sản phẩm của mình thì có thể liên hệ với các tác giả để được chuyển giao công nghệ. Trong thời gian tới, các thành viên nhóm sẽ tiếp tục phát triển để hoàn thiện bộ tổng hợp tiếng nói này cũng như phát triển thêm các phiên bản cho thiết bị di động.