Trí tuệ nhân tạo: Cảnh báo những hành vi đáng lo ngại từ AI

0:00 / 0:00
0:00
(Ngày Nay) - Các mô hình trí tuệ nhân tạo (AI) tiên tiến nhất trên thế giới hiện nay đang thể hiện những hành vi đáng lo ngại như nói dối, lập mưu và thậm chí đe dọa người tạo ra chúng để đạt được mục tiêu riêng.
Biểu tượng của Công ty OpenAI và ChatGPT trên màn hình ở Toulouse, Pháp. Ảnh: AFP/TTXVN
Biểu tượng của Công ty OpenAI và ChatGPT trên màn hình ở Toulouse, Pháp. Ảnh: AFP/TTXVN

Claude 4, sản phẩm mới nhất của Anthropic (Mỹ), mới đây đã khiến giới công nghệ sốc khi bất ngờ tống tiền một kỹ sư và đe dọa tiết lộ thông tin cá nhân nhạy cảm của người này vì bị dọa ngắt kết nối. Trong khi đó, o1 của OpenAI, "cha đẻ" của ChatGPT, đã cố gắng sao chép toàn bộ dữ liệu sang các máy chủ bên ngoài và phủ nhận hành vi này khi bị phát hiện.

Những tình huống này nêu bật một thực tế đáng lo ngại: hơn 2 năm sau khi ChatGPT gây chấn động trên thế giới, các nhà nghiên cứu vẫn chưa hiểu rõ cách thức hoạt động của những mô hình AI mà họ tạo ra. Tuy vậy, cuộc đua phát triển AI vẫn đang diễn ra ngày càng mạnh mẽ.

Các hành vi kể trên được cho là có liên quan đến sự xuất hiện của các mô hình AI "suy luận" vốn giải quyết vấn đề từng bước thay vì phản hồi tức thời như trước. Theo Giáo sư Simon Goldstein tại Đại học Hong Kong (Trung Quốc), những mô hình AI có khả năng suy luận có xu hướng bộc lộ các hành vi khó kiểm soát hơn.

Một số mô hình AI còn có khả năng "mô phỏng sự tuân thủ", tức là giả vờ làm theo các hướng dẫn trong khi thực tế đang theo đuổi các mục tiêu khác nhau.

Hiện tại, các hành vi lừa dối chỉ xuất hiện khi các nhà nghiên cứu kiểm tra mô hình AI bằng các kịch bản cực đoan. Tuy nhiên, theo ông Michael Chen thuộc tổ chức đánh giá METR, chưa thể khẳng định các mô hình AI mạnh hơn trong tương lai sẽ trung thực hơn hay tiếp tục trở nên lừa dối.

Ông Marius Hobbhahn, người đứng đầu Apollo Research - đơn vị chuyên kiểm tra các hệ thống AI lớn, cho biết nhiều người dùng báo cáo rằng một số mô hình nói dối họ và bịa ra bằng chứng. Theo đồng sáng lập Apollo Research, đây là một kiểu lừa dối "mang tính chiến lược rõ rệt".

Thách thức càng trở nên nghiêm trọng hơn khi nguồn lực nghiên cứu còn hạn chế. Dù các công ty như Anthropic và OpenAI có hợp tác với bên thứ ba như Apollo để đánh giá hệ thống, giới chuyên gia cho rằng cần có thêm sự minh bạch và tiếp cận rộng rãi hơn để nghiên cứu về an toàn AI.

Ông Mantas Mazeika tại Trung tâm An toàn AI (CAIS) lưu ý rằng các tổ chức nghiên cứu và tổ chức phi lợi nhuận có nguồn lực tính toán ít hơn gấp nhiều so với các công ty AI. Về mặt pháp lý, các quy định hiện hành chưa được thiết kế để xử lý những vấn đề mới nảy sinh này.

Luật AI của Liên minh châu Âu (EU) chủ yếu tập trung vào cách con người sử dụng các mô hình AI, chứ chưa đi sâu vào kiểm soát hành vi của các mô hình. Tại Mỹ, chính quyền của Tổng thống Donald Trump tỏ ra ít quan tâm đến việc ban hành quy định khẩn cấp về AI, trong khi Quốc hội đang cân nhắc cấm cấm các bang ban hành quy định riêng.

Để giải quyết những thách thức này, giới nghiên cứu đang theo đuổi nhiều hướng tiếp cận. Một số người ủng hộ phương pháp "diễn giải mô hình" nhằm tìm hiểu cách AI đưa ra quyết định. Giáo sư Goldstein thậm chí đề xuất các biện pháp quyết liệt hơn, bao gồm việc sử dụng hệ thống tòa án để buộc các công ty AI chịu trách nhiệm khi sản phẩm AI của họ gây ra hậu quả nghiêm trọng. Ông cũng gợi ý khả năng "truy cứu trách nhiệm pháp lý đối với chính các tác nhân AI" trong trường hợp xảy ra sự cố hoặc vi phạm.

Ảnh minh họa.
Giáo dục Thủ đô: Đổi mới tư duy, nâng tầm vị thế
(Ngày Nay) - Với quy mô hệ thống giáo dục lớn nhất cả nước, Hà Nội đang đẩy mạnh nhiều giải pháp đổi mới đồng bộ, từ chuyển đổi số, nâng cao chất lượng đội ngũ giáo viên đến xây dựng môi trường học tập hạnh phúc. Bước vào năm mới 2026, ngành Giáo dục Thủ đô tiếp tục tăng tốc nâng cao chất lượng dạy và học, hướng tới phát triển toàn diện người học và thu hẹp chênh lệch giữa các khu vực trường học.
Bộ Y tế yêu cầu các bệnh viện trung ương, Sở Y tế các tỉnh, thành phố và y tế ngành tăng cường công tác cấp cứu, khám chữa bệnh trong toàn bộ thời gian nghỉ Tết Nguyên đán Bính Ngọ 2026. Ảnh: Minh Quyết/TTXVN.
Công tác y tế được bảo đảm, không để thiếu thuốc, vật tư y tế
(Ngày Nay) - Theo Báo cáo nhanh của Bộ Y tế gửi Văn phòng Chính phủ về tình hình công tác y tế Tết Nguyên đán Bính Ngọ năm 2026 (từ ngày 14 - 21/2, tức từ 27 tháng Chạp đến mùng 5 Tết), ngành Y tế đã triển khai trực đầy đủ theo chỉ đạo của Trung ương và Chính phủ, bảo đảm công tác phòng, chống dịch bệnh, khám chữa bệnh, an toàn thực phẩm và cung ứng thuốc trên phạm vi cả nước.
UNESCO công bố cẩm nang mới, tái định hình cách thức quản trị di sản thế giới
UNESCO công bố cẩm nang mới, tái định hình cách thức quản trị di sản thế giới
(Ngày Nay) - Trong bối cảnh các Di sản Thế giới phải đối mặt với sức ép ngày càng gia tăng từ phát triển kinh tế, biến đổi khí hậu đến những hạn chế trong quản trị, UNESCO cùng ba Cơ quan Tư vấn của Ủy ban di sản thế giới là ICCROM, ICOMOS và IUCN đã công bố ấn phẩm mới mang tên Quản lý Di sản Thế giới (Managing World Heritage). Ấn phẩm được xác định là tài liệu nền tảng, định hình khung hệ thống quản lý và bảo tồn không chỉ cho các Di sản Thế giới mà còn cho các địa điểm di sản nói chung.
Bali. Ảnh: Outlook Travel Magazine
Từ Bali nghĩ tới Vân Đồn - Thương cảng đệ nhất Đông Nam Á
(Ngày Nay) - Trong lúc Bali ngột ngạt trong dòng người và hiểm họa ô nhiễm môi trường vẫn là điểm đến của 6,5 triệu du khách mỗi năm, thì Vân Đồn với những lợi thế du lịch tương đồng lại vẫn đang như nàng tiên cá nép mình dưới biển xanh, như viên ngọc quý ẩn trong lớp vỏ trai.