Bài viết mới
VOZ Forums

Tham gia VOZ Forums để thảo luận, chia sẻ kiến thức và kết nối cộng đồng. Đăng ký tài khoản miễn phí để đăng bài, bình luận và nhắn tin với thành viên khác.

hot Loạt nâng cấp mô hình của các 'ông lớn' AI

voznews

Điều hành viên
12 Level 12
53.9%
Bài viết
2.585
Được Like
11
screenshot-at-1781063332-1730-1781063461.png

Loạt nâng cấp mô hình của các 'ông lớn' AI

Theo Reuters, các công ty AI hàng đầu đang nâng cấp mô hình của mình với tốc độ "chưa từng có". Chỉ trong 10 ngày đầu tháng 6, ít nhất 8-10 công ty công bố hoặc mở quyền truy cập mô hình ngôn ngữ lớn (LLM). Nếu tính từ tháng 5, có khoảng 15-20 đợt ra mắt hoặc cập nhật AI mới.

Trong khi đó năm 2023, thị trường ghi nhận trung bình 1-2 công bố cải tiến LLM mỗi tháng. Còn năm nay, gần như mỗi tuần đều xuất hiện một mô hình mới hoặc một bản nâng cấp quy mô lớn từ Mỹ, Trung Quốc, châu Âu. The Verge đánh giá, với tốc độ này, cuộc đua đã chuyển từ giai đoạn "ra mắt chatbot" sang "cập nhật liên tục", tương tự chu kỳ phát hành phần mềm của các hãng công nghệ lớn.

Anthropic công bố Claude Fable 5 và Mythos 5

Ngày 9/6, Anthropic công bố Claude Fable 5 và Claude Mythos 5, hai phiên bản kế thừa sức mạnh của siêu AI Mythos nhưng tích hợp biện pháp bảo vệ. Trước đó, mô hình được mệnh danh "siêu hacker" này có khả năng phát hiện, khai thác lỗ hổng bảo mật của bất kỳ hệ thống nào, khiến Anthropic chỉ giới hạn cung cấp cho một số đối tác.

"Nếu không có biện pháp bảo vệ, các tính năng bên trong Fable 5 có thể bị lạm dụng để gây thiệt hại nghiêm trọng, đặc biệt ở lĩnh vực an ninh mạng và bảo mật", công ty viết trên blog.

Screenshot-2026-06-10-at-10-47-8990-6968-1781063461.png

Cũng theo Anthropic, khi sử dụng Fable 5, người dùng được chuyển hướng đến mô hình Opus 4.8 cho một số chủ đề nhất định, gồm các yêu cầu liên quan đến an ninh mạng, sinh học, hóa học. AI mới cũng ngăn quá trình "chưng cất" từ đối thủ. Hồi đầu năm, công ty cáo buộc ba công ty Trung Quốc gồm DeepSeek, Moonshot và MiniMax tạo 24.000 tài khoản giả mạo để "chưng cất" dữ liệu AI Claude của mình.

Trong giới AI, khái niệm "chưng cất" (distillation) đề cập việc "chuyển giao kiến thức" từ mô hình này sang mô hình khác giống kiểu giáo viên - học sinh. "Chưng cất là kỹ thuật được thiết kế để chuyển kiến thức của một mô hình lớn được đào tạo trước (giáo viên) thành một mô hình nhỏ hơn (học sinh), cho phép mô hình học sinh đạt hiệu suất tương đương mô hình giáo viên", hai nhà khoa học Vishal Yadav và Nikhil Pandey nói với Forbes. "Kỹ thuật này giúp tận dụng chất lượng của các mô hình ngôn ngữ lớn (LLM), đồng thời giảm chi phí suy luận".

Anthropic cho biết Fable 5 hiện có sẵn cho tất cả người dùng đăng ký gói Pro và Max, cũng như gói dành cho nhóm và doanh nghiệp. Tuy nhiên, quyền truy cập rộng rãi sẽ không kéo dài lâu, khi các giới hạn nghiêm ngặt hơn sẽ được đặt ra từ ngày 23/6.

Trong khi đó, Claude Mythos 5 ban đầu được triển khai qua Dự án Glasswing hợp tác với chính phủ Mỹ dưới dạng bản nâng cấp cho Claude Mythos Preview. Theo Anthropic, AI này "có khả năng an ninh mạng mạnh nhất so với bất kỳ mô hình nào trên thế giới". Công ty cũng dự định mở quyền truy cập Mythos 5 thông qua một chương trình riêng, nhưng chi tiết không được tiết lộ.

Google Gemini 3.5 Live Translate dịch thuật thời gian thực

Cùng ngày 9/6, Google công bố Gemini 3.5 Live Translate, cho phép dịch giọng nói theo thời gian thực. Trong khi các mô hình cũ cần điện thoại, tai nghe Pixel hoặc thiết bị chuyên dụng, AI mới hỗ trợ quyền truy cập vào tính năng dịch thuật tốc độ cao trên nhiều thiết bị hơn, "với độ trễ thấp hơn bao giờ hết".

ong-lon-ai-dong-loat-nang-cap-mo-hinh-1781062795.jpg

Google cho biết Gemini 3.5 Live Translate "đủ nhanh để theo kịp một cuộc hội thoại thông thường, chỉ chậm hơn người nói vài giây, đồng thời khớp ngữ điệu, tốc độ và cao độ". Hiọng nói cũng "giống con người" hơn, trong khi khả năng lọc tiếng ồn nền trong môi trường ồn ào cũng được nâng cấp so với phiên bản cũ.

Công cụ đang được Google triển khai trên nhiều dịch vụ trong hệ sinh thái của công ty, đầu tiên là Google Meet và sẽ sớm có mặt trên Google Translate cho Android và iOS. Nhà phát triển hiện có thể bắt đầu xây dựng ứng dụng với bản xem trước công khai trong Gemini Live API hoặc AI Studio với các tính năng hỗ trợ xử lý giọng nói thời gian thực, tự động nhận diện và xử lý đầu vào đa ngôn ngữ mà không cần thiết lập thủ công. Hệ thống cũng có khả năng giảm nhiễu từ môi trường xung quanh nhằm duy trì chất lượng dịch thuật trong điều kiện nhiều tiếng ồn.

Tại Hội nghị dành cho nhà phát triển WWDC 2026 diễn ra ngày 8/6, Apple giới thiệu mô hình Apple Foundation Model (AFM) thế hệ thứ ba.

DSCF7568-1781042023-3894-17810-5722-1430-1781064637.png

Amar Subramanya, Phó chủ tịch về trí tuệ nhân tạo của Apple, cho biết AFM gồm hai mô hình hoạt động trực tiếp trên thiết bị và ba mô hình trên máy chủ. Nhóm hoạt động trên thiết bị gồm AFM Core sử dụng kiến trúc dày đặc (dense architecture) và AFM Core Advanced kiến trúc thưa (sparse architecture), đa phương thức nguyên bản (multimodal native). Theo ông, AFM Core Advanced "khác biệt hoàn toàn so với bất kỳ mô hình nào trên thiết bị mà công ty từng triển khai", cho phép bổ sung tính năng mới, gồm yêu cầu tương tác và giọng nói biểu cảm mà không cần gửi lệnh lên máy chủ.

Apple cũng phát triển mô hình trên đám mây gồm AFM Cloud tối ưu cho độ trễ và chi phí thấp cùng AFM Cloud Image hỗ trợ tạo và chỉnh sửa hình ảnh, như tính năng thay đổi góc chụp Định lại khung mới của Apple Intelligence.

Theo Subramanya, bốn mô hình trên được "làm riêng cho chip Apple Silicon, được huấn luyện bằng dữ liệu độc quyền với phương pháp học tăng cường và tinh chỉnh bằng cách sử dụng kết quả đầu ra từ mô hình tiên phong của Gemini". Các đóng góp của Google dựa trên sự chắt lọc của Apple thay vì áp dụng toàn bộ Gemini như các tin đồn.

Mô hình thứ năm và mạnh mẽ nhất của Apple là AFM Cloud Pro, được thiết kế cho tác nhân AI và tác vụ suy luận phức tạp, với chất lượng được Subramanya khẳng định "tương tự các mẫu Gemini tiên tiến nhất". Mô hình cũng đánh dấu một bước ngoặt với dịch vụ điện toán đám mây riêng tư Private Cloud Compute của Apple.

Siri AI được xây trên mô hình AFM, có khả năng đa phương thức nguyên bản (natively multimodal), được huấn luyện từ đầu để hiểu, xử lý và kết hợp đồng thời nhiều loại dữ liệu khác nhau như văn bản, hình ảnh, âm thanh, video.

Các công ty Trung Quốc cũng có một số nâng cấp mô hình. Trong đó, Alibaba ra bản cập nhật Qwen3 Coder Next ngày 10/6 bổ sung tính năng lập trình nâng cao. Mô hình này trình làng từ tháng 2, được huấn luyện trên khối lượng lớn dữ liệu mã nguồn đa ngôn ngữ cùng tài liệu kỹ thuật, cho phép xử lý nhiều ngôn ngữ lập trình phổ biến như Python, Java, Java script, C++, Go và Rust.

Theo Alibaba, mô hình tối ưu cho tác nhân AI trong lĩnh vực phát triển phần mềm, có thể thực hiện chuỗi hành động gồm đọc yêu cầu, phân tích mã hiện có, đề xuất thay đổi và tạo đoạn mã mới. Hệ thống cũng được thiết kế để làm việc với cửa sổ ngữ cảnh lớn, cho phép xử lý dự án có quy mô hàng nghìn dòng code.

Tương tự, mô hình MiniMax M2.5 Highspeed của MiniMax cũng ra mắt tháng 2 và mới bổ sung một số tính năng vào ngày 10/6. Còn gọi là M2.5 Lightning, đây là AI nguồn mở được tối ưu cho tác vụ lập trình, tác nhân AI, tìm kiếm và công việc văn phòng, với trọng tâm là tốc độ suy luận cao và chi phí thấp.

MiniMax M2.5 sử dụng kiến trúc Mixture-of-Experts (MoE) với khoảng 229-230 tỷ tham số tổng cộng, nhưng chỉ 10 tỷ tham số được kích hoạt trong mỗi lần suy luận. Điểm nhấn là tốc độ xử lý đạt khoảng 100 token mỗi giây, cao gần gấp đôi nhiều AI hàng đầu.



Nguồn: VnExpress Số hóa
Chuyên mục: HOT
 
Back