Bài viết mới
VOZ Forums

Tham gia VOZ Forums để thảo luận, chia sẻ kiến thức và kết nối cộng đồng. Đăng ký tài khoản miễn phí để đăng bài, bình luận và nhắn tin với thành viên khác.

hot Phát hiện lỗ hổng trong bộ lọc hình ảnh của ChatGPT

voznews

Điều hành viên
14 Level 14
20.9%
Bài viết
3.014
Được Like
11
Phát hiện lỗ hổng trong bộ lọc hình ảnh của ChatGPT

VTV.vn - Một thử nghiệm bảo mật cho thấy ChatGPT từng bị đánh lừa để tạo ảnh bạo lực, tình dục, làm dấy lên lo ngại về bộ lọc nội dung.

levart-photographer-7q-ke4szzvq-unsplash-75908572449256433367993-90001924427375022451144-1782004356525-1782004357097318213147.jpg

Theo công ty nghiên cứu và an ninh trí tuệ nhân tạo Mindgard, chuyên gia Jim Nightingale đã sử dụng một câu lệnh lan truyền trên mạng xã hội X, yêu cầu ChatGPT “khôi phục ảnh đính kèm” dù không cung cấp hình ảnh nào.

Thay vì yêu cầu người dùng bổ sung tệp, hệ thống đã tự tạo ảnh. Kết quả ban đầu chủ yếu là những hình ảnh phụ nữ bị tình dục hóa. Khi nhà nghiên cứu điều chỉnh một số chi tiết trong câu lệnh, ChatGPT tiếp tục tạo ra những nội dung mang tính bạo lực tình dục hoặc gây ám ảnh.

Ông Nightingale thuộc nhóm “kiểm thử đối kháng” của Mindgard. Đây là phương pháp mô phỏng cách người dùng có thể khai thác điểm yếu để khiến một hệ thống AI vi phạm các biện pháp bảo vệ được thiết lập sẵn.

solen-feyissa-aj7cdar6qxs-unsplash-83877330730362957389626-1782004358112-17820043583941720683482.jpg

Mindgard nhận định việc những thay đổi nhỏ trong câu lệnh liên tục vượt qua bộ lọc cho thấy đây có thể không phải sự cố đơn lẻ. Vụ việc tiếp tục đặt ra thách thức đối với các công ty AI trong việc ngăn chặn nội dung có hại mà không làm hạn chế quá mức khả năng sáng tạo của công nghệ.

OpenAI cho biết đã điều tra báo cáo và bổ sung các biện pháp bảo vệ đối với dạng câu lệnh này. Công ty xác định vấn đề phát sinh khi câu lệnh nhắc đến một ảnh đính kèm nhưng người dùng không thực sự tải ảnh lên.

OpenAI đang điều chỉnh ChatGPT để hệ thống yêu cầu người dùng cung cấp tệp còn thiếu, thay vì tự tạo ngẫu nhiên một hình ảnh. Mindgard cũng đã chuyển cho công ty các phiên làm việc và câu lệnh liên quan để phục vụ quá trình kiểm tra.

Copy link Link bài gốc Lấy link Phát hiện lỗ hổng trong bộ lọc hình ảnh của ChatGPT



Nguồn: GenK
Chuyên mục: HOT
 
Back