Bài viết mới
VOZ Forums

Tham gia VOZ Forums để thảo luận, chia sẻ kiến thức và kết nối cộng đồng. Đăng ký tài khoản miễn phí để đăng bài, bình luận và nhắn tin với thành viên khác.

Tính năng phiên dịch trực tiếp của Google hỗ trợ tiếng Việt

voznews

Điều hành viên
12 Level 12
47.7%
Bài viết
2.570
Được Like
11
dich-1781074101-1839-1781074747.jpg

Tính năng phiên dịch trực tiếp của Google hỗ trợ tiếng Việt

Trong thông báo về mô hình Gemini 3.5 Live Translate ngày 10/6, Google cho biết đang đưa tính năng phiên dịch lên ứng dụng Meet và Translate đến nhiều thị trường, trong đó có Việt Nam.

Trước đây, các ứng dụng này có thể dịch tiếng Việt, nhưng hiển thị phụ đề trên màn hình. Trong khi đó, tính năng mới là dạng giọng nói đè lên âm thanh gốc qua tai nghe, với độ trễ thấp, tương tự dịch cabin. Ví dụ trong cuộc trò chuyện với một người nói tiếng Anh, người dùng có thể mở ứng dụng, chọn cặp ngôn ngữ Anh - Việt. Một giọng tiếng Việt sẽ được phát song song với âm thanh gốc qua tai nghe.

Người dùng tại Việt Nam có thể sử dụng qua ứng dụng Google Translate trên thiết bị chạy iOS và Android, chọn Dịch trực tiếp ở góc trái màn hình. Điều kiện cần là kết nối với tai nghe để nghe phiên dịch. Google cho biết ứng dụng có thể phản ánh chính xác tông giọng của người nói với hơn 70 ngôn ngữ.

Riêng với Android, Google cho biết bắt đầu triển khai chế độ cho phép nghe bản dịch trực tiếp qua loa thoại. "Chỉ cần đưa điện thoại lên tai như khi thực hiện cuộc gọi thông thường, âm thanh được dịch sẽ truyền trực tiếp đến bạn", thông báo nêu. Tính năng này hữu ích trong những tình huống người dùng muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.

dich-1781074160-4810-1781074747.jpg

Tính năng này cũng hoạt động trên ứng dụng Meet, với mô hình Gemini 3.5 Live Translate, hỗ trợ hơn 70 ngôn ngữ, thay vì 5 như trước, trong đó có tiếng Việt. Nó cho phép trò chuyện qua lại giữa hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau trong một cuộc họp. Bản Preview của tính năng này mới được triển khai cho một số khách hàng doanh nghiệp của Google Workspace, trước khi mở rộng vào cuối năm nay.

Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google, cung cấp khả năng dịch giọng nói trực tiếp gần như tức thì. Hãng cho biết mô hình có thể tự động nhận diện ngôn ngữ và tạo ra giọng dịch "mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp nói và cao độ giọng của người nói".

Để làm điều đó, Google không dịch theo từng lượt nói như truyền thống, mà liên tục tạo ra bản dịch bằng giọng nói, cân bằng giữa việc chờ thêm ngữ cảnh để cải thiện chất lượng dịch và dịch lập tức để duy trì sự đồng bộ với người nói. Hãng cho biết bản dịch có thể "chậm vài giây" trong cuộc trò chuyện.

Ngoài ứng dụng Meet và Translate, Google cũng triển khai tính năng cho các nhà phát triển thông qua Gemini Live API và Google AI Studio, giúp xây dựng ứng dụng dịch giọng nói. Grab là một trong các đối tác đang thử nghiệm mô hình này nhằm hỗ trợ giao tiếp đa ngôn ngữ theo thời gian thực giữa tài xế và hành khách tại điểm đón. Hiện 10 triệu cuộc gọi thoại thông qua nền tảng Grab được thực hiện bằng cách này mỗi tháng, theo Google.

"Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói một cách chính xác với độ trễ thấp của mô hình", Philipp Kandal, Giám đốc sản phẩm tại Grab cho biết.

Để tránh việc dịch giọng nói có thể bị lợi dụng để tạo thông tin sai lệch, nhà phát triển cho biết tất cả âm thanh sẽ được gắn watermark bằng SynthID, giúp nhận diện nội dung AI.



Nguồn: VnExpress Số hóa
Chuyên mục: AI
 
Back