Translatotron của Google có thể dịch bài phát biểu mà vẫn giữ nguyên giọng nói của bạn

13-06-2019

NHASANGNGHIEP.VN - Các nhà nghiên cứu đã tạo một mạng lưới thần kinh để vẽ lại bản in giọng nói từ ngôn ngữ này sang ngôn ngữ khác.

 

Google AI vừa công bố kết quả nghiên cứu mới nhất của mình trong một thử nghiệm dịch lời nói thành giọng nói của chính bạn, nó được gọi là Translatotron.

"Google Dịch chia bài phát biểu của bạn thành các từ dựa trên văn bản, thực hiện dịch văn bản thành văn bản và sau đó phát lại văn bản đã dịch bằng TTS (tổng hợp văn bản thành giọng nói). Dịch thuật hoàn toàn mới của Google Dịch dựa trên mô hình dịch trực tiếp lời nói thành giọng nói. Nói cách khác, nó trực tiếp dịch đầu vào được lấy thành lời nói và phát lại bằng cách sử dụng một mô hình trình tự theo trình tự chú ý duy nhất, do đó cung cấp tốc độ suy luận nhanh hơn, tự nhiên tránh các lỗi ghép giữa nhận dạng và dịch thuật, khiến cho việc giữ giọng nói trở nên đơn giản người nói ban đầu sau khi dịch và xử lý tốt hơn những từ không cần dịch", Google cho biết.

Tuy kết quả không hoàn hảo, nhưng bạn có thể nghe cách Google dịch có thể giữ được giọng nói và âm điệu của loa gốc. Nó có thể làm điều này bởi vì nó chuyển đổi đầu vào âm thanh trực tiếp thành đầu ra âm thanh mà không cần bất kỳ bước trung gian nào. Ngược lại, các hệ thống tịnh tiến truyền thống chuyển đổi âm thanh thành văn bản, dịch văn bản và sau đó tổng hợp lại âm thanh, làm mất các đặc điểm của giọng nói gốc trên đường đi.

Hệ thống mới, được đặt tên là Translatotron, có ba thành phần, tất cả đều xử lý phổ âm thanh của người nói - ảnh chụp nhanh về tần số được sử dụng khi âm thanh đang phát, thường được gọi là voiceprint. Thành phần đầu tiên sử dụng mạng thần kinh được đào tạo để ánh xạ phổ âm thanh trong ngôn ngữ đầu vào sang phổ âm thanh trong ngôn ngữ đầu ra. Thứ hai chuyển đổi quang phổ thành một sóng âm thanh có thể được phát. Thành phần thứ ba sau đó có thể đưa các đặc điểm giọng nói gốc của loa trở lại vào đầu ra âm thanh cuối cùng.

Cách tiếp cận này không chỉ tạo ra các bản dịch nhiều sắc thái hơn bằng cách giữ lại các tín hiệu phi ngôn ngữ quan trọng, mà về mặt lý thuyết, nó cũng nên giảm thiểu lỗi dịch thuật, bởi vì nó chuyển dịch ít bước hơn.

Translatotron hiện là một thử nghiệm. Trong quá trình thử , các nhà nghiên cứu đã thử nghiệm hệ thống chỉ với bản dịch từ tiếng Tây Ban Nha sang tiếng Anh.

"Mặc dù Google hiện đang sở hữu một mô hình dịch thuật mới, nhưng nó vẫn chưa sẵn sàng để kết hợp nó vào Google Dịch và các công cụ liên quan khác. Hệ thống mới đang tụt lại phía sau về điểm BLEU, nghĩa là bản dịch chưa đủ chính xác. Về mặt tích cực, mô hình mới vẫn giữ được giọng nói tự nhiên của người dùng ngay cả sau khi dịch vì nó không sử dụng TTS cho đầu ra," báo cáo của Digit.in.


Benjamin Kang - NHASANGNGHIEP.VN

 

content

Các tin khác

0_Vu-Van-ELSA.jpg

Kinh nghiệm gọi vốn triệu USD của CEO Elsa

Văn Đinh Hồng Vũ - CEO Elsa sáng lập ứng dụng dạy tiếng Anh Elsa tại Mỹ năm 2016. Đến nay, startup nhận tổng mức đầu tư 12 triệu USD từ các quỹ nổi tiếng thế giới. Ứng dụng hiện có 4 triệu lượt người...

14-06-2019

0_SK-group-copy.jpg

SK ảnh hưởng sâu rộng tại Việt Nam: Chuỗi đầu tư có thể chuẩn bị cho tư nhân hóa trong tương lai

NHASANGNGHIEP.VN - Chuyến thăm của Chủ tịch SK Chey Tae-won đến Việt Nam tuần trước đã thu hút nhiều sự chú ý trong cộng đồng doanh nghiệp Hàn Quốc, đặc biệt là khi Tập đoàn SK đang mở rộng sự hiện...

10-06-2019

0_xbox-xcloud-halo-touch.jpg

Microsoft cạnh tranh trò chơi đám mây với đối thủ Google Stadia

NHASANGNGHIEP.VN - Chỉ vài ngày sau khi Google tiết lộ chi tiết mới về Stadia, Microsoft đã đưa ra bản xem trước của dịch vụ phát trực tuyến đám mây Project xCloud tại hội nghị E3 hàng năm. Ban đầu...

10-06-2019

0_vua-nem.png

CEO Vua Nệm kể chuyện cắm sổ đỏ lấy tiền kinh doanh và thương vụ đầu tư 100 tỷ đồng từ Mekong Capital

CEO Vua Nệm lần đầu tiết lộ số tiền Mekong Capital đầu tư vào công ty và kế hoạch huy động 8 triệu USD cho vòng gọi vốn tiếp theo.

10-06-2019