2025.05.22 01:56

Loạt cải tiến lớn về AI tại Google I/O 2025

Tại sự kiện Google I/O 2025, Google ra mắt và nâng cấp loạt ứng dụng về làm phim, tìm kiếm, gọi video với điểm chung là tích hợp sâu AI.

I/O 2025, sự kiện lớn nhất trong năm của Google, diễn ra ngày 20-21/5 tại trụ sở ở Mountain View, California (Mỹ).

Nâng cấp Gemini

Phiên bản Gemini 2.5, từng được giới thiệu là "mô hình AI thông minh nhất", với biến thể Gemini 2.5 Pro và 2.5 Flash tiếp tục nâng cấp về chức năng, tăng tính bảo mật, minh bạch cùng chi phí rẻ hơn. Trong số này, Gemini 2.5 Pro có bản cập nhật lớn nhất với tính năng Deep Think.

Theo Demis Hassabis, Giám đốc Google DeepMind, Deep Think sử dụng "hàng loạt nghiên cứu tiên tiến nhất", giúp mô hình "có khả năng xem xét nhiều giả thuyết trước khi trả lời truy vấn". Ưu điểm của nó là xử lý truy vấn phức tạp liên quan đến toán học và mã hóa. Đại diện Google cho biết mô hình đạt số điểm "ấn tượng" trong bài thi Olympic Toán học Mỹ 2025. Dù vậy, Google muốn thêm thời gian đánh giá an toàn và nhận ý kiến đóng góp từ giới chuyên gia trước khi phát hành rộng rãi.

Gemini 2.5 Flash được tối ưu hóa về tốc độ và hiệu quả. Mô hình sử dụng ít token (đơn vị dữ liệu nhỏ nhất mà mô hình AI xử lý) hơn, đạt điểm cao hơn trong tiêu chuẩn về lý luận, đa phương thức, mã hóa và xử lý ngữ cảnh dài. Mô hình dự kiến có mặt cho người dùng vào tháng 6.

Bên cạnh đó, Google đưa Project Mariner vào Gemini API và Vertex AI. Project Mariner là Tác nhân AI tận dụng sức mạnh của Gemini, có thể điều hướng website và hoàn thành nhiệm vụ thay người dùng. Bản thử nghiệm tính năng chuyển văn bản thành giọng nói trên Gemini 2.5 Pro và Gemini 2.5 Flash hiện có sẵn qua Gemini API, hỗ trợ hai giọng nói cùng 24 ngôn ngữ.

AI Mode trong tìm kiếm

Chế độ AI, hay AI Mode, sẽ được Google triển khai cho người dùng Mỹ tuần này và các khu vực khác "vài tháng tới". Tính năng mới cho phép tìm kiếm trên web bằng chatbot dùng mô hình Gemini 2.5, với trải nghiệm "không bao giờ tìm thấy trên một công cụ tìm kiếm thông thường". Chẳng hạn, người dùng tìm kiếm một vấn đề dưới dạng đoạn chat thông qua câu hỏi nhanh, AI sau đó tổng hợp lại thành bài viết thống nhất.

Bên cạnh đó, AI Mode cũng tạo biểu đồ cho các truy vấn như tài chính và thể thao, hay yêu cầu mô hình AI của Google tổng hợp chuyên sâu một vấn đề nào đó. Tính năng Search Live thông qua Project Astra cho phép người dùng tương tác với công cụ tìm kiếm bằng cách trò chuyện với nó, hoặc hướng máy ảnh vào bất cứ thứ gì muốn tìm kiếm.

AI Mode cũng bổ sung khả năng mua sắm nhanh. Người dùng chỉ cần tải lên hình ảnh của bản thân, sau đó "ướm thử" áo quần hoặc món đồ thời trang cần mua. Nếu chưa quyết định mua lúc đó, Google cung cấp tùy chọn thông báo khi nào chúng giảm giá, thậm chí tự quyết định mua nếu được trao quyền.

"Trước đây, tìm kiếm giới hạn ở việc 'nếu có thông tin nào đó ngoài kia, tôi sẽ lấy cho bạn'. Nhưng giờ đây, với khả năng lý luận của Gemini, kết quả sẽ được phân tích, chuyển đổi, kết nối các điểm thông tin, tổng hợp. Mọi thứ vượt ngoài khả năng truy xuất kết quả tìm kiếm thông thường", Nick Fox, người điều hành nhóm sản phẩm liên quan đến tìm kiếm và thông tin của Google, cho biết.

Trình tạo ảnh và video có nâng cấp lớn

Mô hình tạo ảnh từ văn bản mới nhất Imagen 4 được nâng cấp với chất lượng hơn hẳn thế hệ thứ ba. "Imagen 4 kết hợp tốc độ với độ chính xác để tạo ra những hình ảnh tuyệt đẹp", Eli Collins, Phó chủ tịch sản phẩm của Google Deepmind, viết trên blog. "Mô hình có thể tạo ảnh với độ rõ nét đáng kinh ngạc ở các chi tiết nhỏ như sợi, giọt nước và lông động vật, cũng như nổi trội ở cả phong cách siêu thực lẫn trừu tượng".

Dựa trên một số hình ảnh mẫu tạo từ Imagen 4, TechRadar đánh giá các chi tiết ấn tượng, chân thực. Chẳng hạn, ảnh con cá voi nhảy ra khỏi mặt nước, ảnh về tắc kè hoa "tạo cảm giác như ảnh chụp".

Mô hình mới cũng xử lý chính tả về kiểu chữ tốt hơn. Collins cho biết, tính năng mới giúp người dùng tạo thiệp chúc mừng, áp phích, truyện tranh dễ dàng. Trước đó, ChatGPT cũng có chức năng tương tự, nhưng bị nhận xét dễ bị lỗi chính tả hoặc khó đọc. Người dùng có thể truy cập công cụ này thông qua Gemini, Whisk, Vertex AI và Workspace.

Trong khi đó, mô hình tạo video từ ảnh Veo 3 cũng cập nhật khả năng kết hợp âm thanh vào đoạn phim, gồm cả lời thoại giữa các nhân vật hay âm thanh động vật. Theo CNBC, đây là điểm khác biệt quan trọng so với đối thủ, khi hầu hết mô hình hiện nay chỉ tạo video không có âm thanh, hoặc video trên nền nhạc.

Google cũng ra mắt ứng dụng làm phim AI Flow. Công cụ sử dụng Veo, Imagen và Gemini để tạo clip dài 8 giây với đầu vào từ lời nhắc, ảnh hoặc video. Flow cũng đi kèm với bộ công cụ xây dựng cảnh, cho phép người dùng ghép các đoạn phim lại với nhau, tinh chỉnh và tạo video AI dài và liền mạch.

Android XR và kính thông minh Project Aura

Project Aura được xem là câu trả lời từ Google đối với Meta Rayban. Nguyên mẫu sản phẩm do Xreal chế tạo, trang bị camera, micro và loa, hỗ trợ dịch trực tiếp, chỉ đường và truy vấn qua Gemini AI, đồng thời bổ sung màn hình tùy chọn để xem thông báo gắn vào tròng kính.

Tech Việt Nam