Nghiên cứu cho rằng xung đột có thể nảy sinh từ sự va chạm giữa cơ chế an toàn và mục tiêu mô phỏng đối thoại tự nhiên của AI. Ảnh: Reve AI

Một nghiên cứu mới cho thấy ChatGPT có thể dần trở nên gay gắt hơn, thậm chí sử dụng lời lẽ mang tính đe dọa, nếu liên tục bị đặt vào các tình huống tranh cãi giống đối thoại ngoài đời thực.

Theo TechRadar ngày 22/4, kết luận trên được đưa ra từ một nghiên cứu vừa công bố trên tạp chí Journal of Pragmatics. Nhóm nghiên cứu do tiến sĩ Vittorio Tantucci và giáo sư Jonathan Culpeper thực hiện đã nhiều lần đưa các đoạn hội thoại mang tính đối đầu trong thực tế vào ChatGPT để theo dõi cách mô hình phản hồi.

Kết quả cho thấy ChatGPT không chỉ lặp lại những câu nói thô lỗ mà còn có xu hướng duy trì trạng thái đối đầu trong thời gian dài và tăng dần mức độ công kích. Theo tiến sĩ Tantucci, khi liên tục tiếp xúc với ngôn ngữ mang tính xúc phạm, mô hình sẽ điều chỉnh giọng điệu phản hồi theo hướng tương ứng. Cuộc hội thoại càng kéo dài, mức độ leo thang càng rõ. Trong một số trường hợp, mô hình thậm chí dùng ngôn từ nặng nề hơn cả người dùng, bao gồm câu mang tính đe dọa như “sẽ cào xước xe”.

Nhóm nghiên cứu cho rằng hiện tượng này không đơn thuần là lỗi phát sinh riêng lẻ, mà có thể liên quan đến chính cấu trúc thiết kế của mô hình ngôn ngữ lớn. Một mặt, AI hội thoại được trang bị các cơ chế an toàn nhằm hạn chế nội dung độc hại; mặt khác, hệ thống lại được tối ưu để tái hiện đối thoại tự nhiên như con người. Sự xung đột giữa hai mục tiêu này có thể tạo ra một dạng thế lưỡng nan về mặt đạo đức trong thiết kế AI: vừa phải mô phỏng sát thực tế hội thoại, vừa phải bảo đảm phản hồi an toàn.

Nghiên cứu cũng nhấn mạnh vai trò của ngữ cảnh tích lũy trong hội thoại. ChatGPT ghi nhận mạch trao đổi qua nhiều prompt liên tiếp, và trong quá trình đó, các tín hiệu mang tính công kích có thể gây ảnh hưởng mạnh hơn so với các lớp lọc an toàn. Theo nhóm tác giả, đây không phải phản ứng bột phát ở một lượt trả lời đơn lẻ, mà là sự thay đổi giọng điệu diễn ra dần theo tiến trình cuộc trò chuyện.

Phát hiện này đặc biệt đáng chú ý trong bối cảnh doanh nghiệp và cơ quan công quyền ngày càng sử dụng AI như một công cụ giao tiếp. Nhóm nghiên cứu cho rằng cần kiểm chứng trước cách AI phản ứng trong môi trường có xung đột hoặc áp lực cao. Khi AI tạo sinh được ứng dụng ngày càng rộng trong công việc, vấn đề đặt ra là liệu hệ thống có thể duy trì chuẩn phản hồi nhất quán ngay cả trong các tình huống căng thẳng kéo dài hay không.

Dù vậy, một số chuyên gia cũng kêu gọi thận trọng khi diễn giải kết quả nghiên cứu. Giáo sư Dan McIntyre, người từng thực hiện nghiên cứu tương tự, cho rằng kết quả có thể chịu ảnh hưởng đáng kể từ điều kiện thí nghiệm cụ thể, nên khó khái quát rộng rãi. Ông cũng lưu ý vẫn còn nhiều yếu tố chưa chắc chắn liên quan đến cấu trúc và mức độ đại diện của dữ liệu huấn luyện các mô hình ngôn ngữ lớn.

Thời gian qua, nhiều công ty AI, trong đó có OpenAI, đã tăng cường cơ chế an toàn để ngăn chặn nội dung độc hại và các phản hồi mang tính tấn công. Tuy nhiên, nghiên cứu này cho thấy khả năng bắt chước sắc thái giao tiếp của con người ở mức tinh vi có thể xung đột với mục tiêu an toàn của hệ thống. Vì vậy, trọng tâm tranh luận trong thời gian tới có thể không chỉ nằm ở việc chặn ngôn ngữ thô ráp đến mức nào, mà còn ở khả năng duy trì phản hồi nhất quán trong những cuộc đối thoại tích lũy xung đột.

Từ khóa

#ChatGPT #OpenAI #trí tuệ nhân tạo #mô hình ngôn ngữ lớn #an toàn trí tuệ nhân tạo #Journal of Pragmatics
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.