Baidu đã chính thức trình làng DeepVoice 3 – hệ thống AI mô phỏng giọng nói mới nhất của hãng, mở ra rất nhiều tiềm năng cho các lĩnh vực công nghệ trong tương lai.
Đầu năm nay, Baidu – “gã khổng lồ” trong công nghệ tìm kiếm đến từ Trung Quốc, đã cho ra mắt một hệ thống AI mới với tên gọi DeepVoice. Hệ thống này sử dụng kĩ thuật trí thông minh nhân tạo phổ biến nhưng rất cao cấp để có thể chuyển đổi văn bản thành giọng nói.
Phiên bản đầu tiên của DeepVoice có khả năng tạo ra những câu nói ngắn gọn và rất khó để phân biệt với giọng nói thật của con người. Hệ thống này phải tốn hàng giờ đồng hồ để bắt chước được giọng nói của một người, và chỉ có thể học được một giọng tại một khoảng thời gian nhất định.
Vào tháng 5 vừa qua, Baidu tiếp tục trình làng DeepVoice 2 với những cải tiến vượt bậc so với người tiền nhiệm. Cụ thể, hệ thống này có thể giả giọng bất cứ ai chỉ sau nửa giờ đồng hồ “luyện tập” và đặc biệt hơn là khả năng “học” đến hàng trăm giọng nói khác nhau trên thế giới.
Mới đây nhất, vào ngày 24/10, phiên bản thứ ba và cũng là phiên bản cuối cùng của DeepVoice cũng đã ra mắt. Baidu tuyên bố hệ thống AI của họ có thể mô phỏng 2500 giọng nói khác nhau và cũng chỉ mất nửa tiếng để học mỗi chất giọng mà thôi.
Baidu cho biết: “Sở hữu một hệ thống với khả năng tạo ra nhiều tiếng nói khác nhau sẽ mở toang cánh cửa đến những lĩnh vực khác chưa từng ai khám phá được. Ví dụ, mỗi nhân vật trong một cuốn tiểu thuyết dạng audio hay trong một trò chơi điện tử nào đó sẽ có giọng nói cho riêng mình. Nhờ vậy, trải nghiệm của người dùng cũng được nâng cao lên rất nhiều”.
Tuy nhiên, nhiều người cho rằng những giọng nói mà DeepVoice 3 tổng hợp lại nghe rất không tự nhiên, không hề giống giọng con người như hai người tiền nhiệm. Baidu lập tức lên tiếng thanh minh: “Nếu chỉ muốn tạo ra một hay hai loại chất giọng như các phiên bản trước đây thì DeepVoice 3 đã làm rất tốt rồi. Chất lượng sản phẩm của DeepVoice 3 hoàn toàn tự nhiên, giống con người và sẵn sàng để tích hợp cho các trợ lý ảo trong thời gian tới”.
Mục đích cuối cùng của Baidu chính là tạo ra một hệ thống làm chủ được sắc thái đa dạng của rất nhiều ký tự cũng như giọng nói khác nhau trên thế giới. Hiện tại, 2500 là con số giới hạn mà DeepVoice có thể đạt được. Nhưng Baidu cho biết, các hệ thống trong tương lai sẽ sử dụng lượng dữ liệu lớn hơn nữa để có thể mô phỏng thành công 10.000 chất giọng khác nhau, thậm chí còn nhiều hơn thế nữa.
Đại diện của Baidu chia sẻ: “Đây là thành tựu ban đầu cho thấy khả năng phát triển tiềm tàng của công nghệ AI. Hệ thống của chúng tôi đã thành công trong việc mở rộng quy mô lớn đến mức chưa từng có trong lĩnh vực chuyển đổi văn bản thành giọng nói. Chúng tôi tin là trong tương lai gần, chất lượng của công nghệ này sẽ còn được cải thiện thêm nữa nhờ kết hợp lượng dữ liệu lớn hơn, tốt hơn với những kỹ thuật machine learning truyền thống”.
Baidu không phải là “ông lớn” duy nhất trong công nghệ tổng hợp giọng nói máy tính. DeepMind (thuộc Google) cũng đã triển khai một dự án tương tự với tên gọi WaveNet. Phiên bản mới nhất của hệ thống này có thể mô phỏng giọng nói với chất lượng khá cao, thậm chí còn tự tạo ra “tiếng cười” để giọng nói đó được tự nhiên, chân thực hơn. Hiện tại, WaveNet đang được sử dụng cho giọng tiếng Anh và tiếng Nhật của Google Assistant.
Nguồn genk.vn