Tại sự kiện Google I/O 2025, Google đã giới thiệu tính năng dịch giọng nói theo thời gian thực trên nền tảng Google Meet, đánh dấu một bước tiến quan trọng trong việc phá bỏ rào cản ngôn ngữ trong giao tiếp trực tuyến. Tính năng này sử dụng trí tuệ nhân tạo để dịch lời nói của người tham gia cuộc gọi sang ngôn ngữ khác, đồng thời giữ nguyên giọng nói, ngữ điệu và biểu cảm ban đầu, mang đến trải nghiệm giao tiếp tự nhiên và liền mạch hơn bao giờ hết.

Công nghệ tiên tiến từ DeepMind và Gemini AI
Tính năng dịch giọng nói của Google Meet được xây dựng dựa trên mô hình ngôn ngữ âm thanh lớn từ Google DeepMind và công nghệ AI Gemini. Khi một người nói trong cuộc gọi, hệ thống sẽ dịch lời nói sang ngôn ngữ của người nghe gần như ngay lập tức, đồng thời tái tạo giọng nói với ngữ điệu và biểu cảm tương tự như người nói ban đầu. Điều này giúp cuộc trò chuyện trở nên tự nhiên và dễ hiểu hơn, ngay cả khi các bên sử dụng ngôn ngữ khác nhau.
Ứng dụng thực tế và tiềm năng phát triển
Tính năng này mở ra nhiều cơ hội ứng dụng trong thực tế. Ví dụ, các gia đình có thành viên sống ở nhiều quốc gia khác nhau có thể trò chuyện dễ dàng hơn, bất chấp rào cản ngôn ngữ. Trong môi trường doanh nghiệp, các nhóm làm việc đa quốc gia có thể hợp tác hiệu quả hơn mà không cần lo lắng về sự khác biệt ngôn ngữ.
Hiện tại, tính năng dịch giọng nói của Google Meet hỗ trợ hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha, và đang được triển khai dưới dạng beta cho người dùng đăng ký gói Google AI Pro và Ultra. Google dự kiến sẽ mở rộng hỗ trợ thêm các ngôn ngữ khác như tiếng Ý, tiếng Đức và tiếng Bồ Đào Nha trong vài tuần tới. Ngoài ra, tính năng này cũng sẽ được thử nghiệm với khách hàng doanh nghiệp sử dụng Google Workspace trong năm nay.
Kết hợp với dự án Google Beam
Tính năng dịch giọng nói trong Google Meet là một phần trong nỗ lực lớn hơn của Google nhằm nâng cao trải nghiệm giao tiếp trực tuyến. Trong khuôn khổ dự án Google Beam, Google đang phát triển các công nghệ như camera 3D và mô hình video thể tích để tái hiện hình ảnh người gọi điện một cách chân thực nhất. Sự kết hợp giữa dịch giọng nói theo thời gian thực và hình ảnh 3D hứa hẹn sẽ mang đến trải nghiệm gọi điện gần như thực tế, giúp người dùng cảm thấy như đang trò chuyện trực tiếp với nhau.
Thách thức và triển vọng
Mặc dù tính năng dịch giọng nói của Google Meet mang lại nhiều lợi ích, nhưng vẫn còn một số thách thức cần vượt qua. Một số người dùng đã trải nghiệm tính năng này cho biết vẫn có độ trễ nhẹ trong quá trình dịch, và đôi khi hệ thống có thể hiểu sai ngữ cảnh hoặc dịch không chính xác, đặc biệt là ở đầu câu. Tuy nhiên, Google cam kết sẽ tiếp tục cải thiện công nghệ để giảm thiểu các lỗi này và nâng cao độ chính xác của bản dịch.
Ngoài ra, vấn đề quyền riêng tư và bảo mật dữ liệu cũng được đặt ra khi sử dụng các công nghệ AI trong giao tiếp. Google khẳng định rằng dữ liệu cuộc gọi sẽ không được lưu trữ hoặc sử dụng để huấn luyện AI, nhằm bảo vệ quyền riêng tư của người dùng.
Việc ra mắt tính năng dịch giọng nói theo thời gian thực trong Google Meet đánh dấu một bước tiến quan trọng trong việc phá bỏ rào cản ngôn ngữ trong giao tiếp trực tuyến. Với sự hỗ trợ của công nghệ AI tiên tiến, người dùng có thể trò chuyện một cách tự nhiên và hiệu quả hơn, bất chấp sự khác biệt về ngôn ngữ. Mặc dù vẫn còn một số thách thức cần vượt qua, nhưng triển vọng của công nghệ này là rất lớn, hứa hẹn sẽ thay đổi cách chúng ta giao tiếp và hợp tác trong tương lai.