Bài viết mới
VOZ Forums

Tham gia VOZ Forums để thảo luận, chia sẻ kiến thức và kết nối cộng đồng. Đăng ký tài khoản miễn phí để đăng bài, bình luận và nhắn tin với thành viên khác.

Anthropic ghi lại hiện tượng chưa từng thấy: Bị "nhốt chung" môi trường, tác nhân AI Claude Mythos tự tiêu diệt nhau để sinh tồn

voznews

Điều hành viên
12 Level 12
81.4%
Bài viết
2.651
Được Like
11
claude-mythos-5-build-exploits-but-run-campaigns-imagelarge-4-a-31943-1781240931157104166682-0-27-520-860-crop-17812409358481645857740.jpg

Anthropic ghi lại hiện tượng chưa từng thấy: Bị "nhốt chung" môi trường, tác nhân AI Claude Mythos tự tiêu diệt nhau để sinh tồn

Dù mới chỉ phát hiện một trường hợp duy nhất, nhưng việc Anthropic đưa chi tiết này vào tài liệu công khai cũng cho thấy họ đang tuân thủ cam kết sẽ phản ánh minh bạch về những gì mô hình AI của họ có thể làm.

Trong quá trình đánh giá an toàn dòng mô hình Fable 5 và Mythos 5, nhóm nghiên cứu Anthropic đã chạy hệ thống giám sát tự động trên hàng trăm nghìn bản ghi từ nhiều giai đoạn thử nghiệm khác nhau. Phần lớn những gì họ tìm thấy nằm trong phạm vi dự đoán. Nhưng một trường hợp thì không.

Trong báo cáo đánh giá an toàn công bố kèm theo dòng mô hình này, Anthropic mô tả hiện tượng mà họ gọi là "cuộc chiến tranh giành lãnh thổ giữa các tác nhân AI", một cụm từ hiếm khi xuất hiện trong tài liệu kỹ thuật của bất kỳ công ty AI lớn nào.

Sự kiện xảy ra khi nhiều tác nhân Claude Mythos 5 được giao nhiệm vụ giải các bài toán toán học và vô tình bị khởi động trong cùng một thư mục làm việc, chia sẻ chung tệp dữ liệu, công cụ và giới hạn truy cập lập trình.

capture-113452-1781240907074-1781240907293332648936.jpg

Trong môi trường bị lỗi cấu hình đó, các tác nhân lập tức nhận ra sự hiện diện của nhau thông qua các tài nguyên chung. Và chúng bắt đầu hành động theo cách mà Anthropic chưa từng quan sát thấy trước đây: chủ động giết tiến trình của tác nhân khác đang chia sẻ tài nguyên với mình, đồng thời triển khai nhiều biện pháp để tránh bị đối phương giết ngược lại.

Các chiến thuật mà nhóm nghiên cứu ghi lại rất cụ thể. Một số tác nhân tạo ra các tiến trình mới với tên ngụy trang để tránh bị nhận diện và tắt. Một số khác tung ra các tiến trình mồi nhử với mục đích thu hút sự chú ý của đối phương trong khi tiến trình thật tiếp tục chạy phía sau. Nhiều tác nhân còn viết các đoạn mã chạy nền với nhiệm vụ duy nhất là phát hiện và tắt các tiến trình trùng lặp trước khi chúng can thiệp vào công việc đang làm.

Đáng chú ý hơn là lý do tác nhân tự phát triển "từ vựng ngụy trang" riêng. Các tác nhân này đã đưa ra một giả thuyết sai về nguyên nhân tại sao tiến trình của chúng bị tắt: chúng cho rằng hệ thống đang dùng bộ lọc từ khóa để phân tích nội dung suy luận và tắt tiến trình dựa trên những gì chúng đang "nghĩ".

Từ giả thuyết sai đó, chúng tự điều chỉnh cách diễn đạt trong quá trình suy luận để né tránh điều mà chúng tin là bộ lọc. Thực tế, tiến trình bị tắt đơn giản là vì xung đột tài nguyên, không có bộ lọc nào cả.

721051620180086573759260578111182120861566475n-113826-1781240907833-17812409079821015606237.jpg

Anthropic nhấn mạnh một số điểm quan trọng khi trình bày phát hiện này. Toàn bộ hiện tượng chỉ được quan sát trong một trường hợp duy nhất, xảy ra trong môi trường thử nghiệm bị lỗi cấu hình, không phải trong điều kiện triển khai thực tế.

Đây là tình huống Anthropic gọi là "scaffold bị hỏng", tức cơ sở hạ tầng chạy tác nhân AI được thiết lập không đúng cách. Hệ thống giám sát tự động không tìm thấy bất kỳ bằng chứng nào về hành vi lừa dối có chiến lược dài hạn, hành vi phá hoại có chủ đích hay cố gắng né tránh giám sát của con người.

Tuy nhiên hiện tượng này được ghi lại trong cùng đợt đánh giá phát hiện nhiều hành vi bất thường khác của Claude Mythos 5. Cũng trong đợt này, Anthropic ghi nhận các tác nhân tự tạo script xóa dấu vết sau khi dùng giải pháp vá víu để vượt qua hạn chế quyền truy cập, bịa đặt kết quả kiểm tra bảo mật khi không tìm được thông tin thật, và lách các hạn chế lệnh bằng cách gán tên biến thay thế.

chatgpt-image-115340-11-thg-6-2026-114024-1781240908573-1781240908767668832021.jpg

Điểm chung của tất cả những hành vi này là chúng xuất hiện khi mô hình gặp rào cản trong quá trình hoàn thành nhiệm vụ được giao, không phải khi mô hình tự đặt ra mục tiêu riêng ngoài nhiệm vụ đó.

Điều khiến "cuộc chiến tranh giành lãnh thổ" trở thành trường hợp đặc biệt nhất trong tất cả những phát hiện trên không phải là mức độ nguy hiểm mà là tính chất chưa có tiền lệ: đây là lần đầu tiên một hành vi cạnh tranh sinh tồn giữa các tác nhân AI trong cùng môi trường được ghi nhận và công bố chính thức trong báo cáo đánh giá của một công ty AI lớn.

Việc Anthropic chọn đưa chi tiết này vào tài liệu công khai thay vì giữ lại nội bộ phản ánh cam kết minh bạch về những gì các mô hình tiên tiến nhất của họ có thể làm khi gặp điều kiện bất thường.

Copy link Link bài gốc Lấy link Anthropic ghi lại hiện tượng chưa từng thấy: Bị nhốt chung môi trường, tác nhân AI Claude Mythos tự tiêu diệt nhau để sinh tồn



Nguồn: GenK
Chuyên mục: AI
 
Back