Gemini của Google vượt ChatGPT về mức độ “giống người” trong bài kiểm tra viết

Gemini của Google và ChatGPT của OpenAI. Ảnh: Reve AI

Gemini của Google được đánh giá là chatbot tạo ra văn bản mang văn phong gần với người viết nhất trong số các mô hình AI phổ biến hiện nay.

Theo TechRadar ngày 16/4 (giờ địa phương), dẫn thử nghiệm của Open Resource Application (ORA), Gemini ghi nhận tỷ lệ bị các công cụ phát hiện AI nhận diện thấp nhất khi 12 chatbot cùng thực hiện một nhiệm vụ viết giống nhau.

Trong bài kiểm tra, mỗi mô hình được yêu cầu viết một bài dài theo hướng tạo cảm giác như do con người chấp bút. Các văn bản sau đó được đưa qua ba nền tảng phát hiện AI gồm Grammarly, QuillBot và GPTZero để phân loại xem nội dung do AI hay con người tạo ra.

Kết quả cho thấy Gemini cho thấy sự khác biệt rõ rệt. Trên Grammarly, văn bản do Gemini tạo ra bị nhận diện là nội dung AI thấp hơn đáng kể so với các mô hình khác. Trên QuillBot, nội dung này thậm chí không bị xác định là do AI tạo. Trong khi đó, GPTZero nhìn chung vẫn phát hiện được phần lớn văn bản do AI tạo ra.

ORA cho rằng lợi thế của Gemini nằm ở cấu trúc câu và cách phát triển nội dung. Theo ORA, các công cụ phát hiện AI thường dựa vào những mẫu câu dễ dự đoán và cấu trúc lặp lại, trong khi Gemini thể hiện khác biệt so với các khuôn mẫu đó. Đại diện ORA cho biết các công cụ như GPTZero không chỉ đánh giá mức độ dễ dự đoán của câu chữ mà còn xem xét cả cấu trúc tổng thể của bài viết; mô hình nào phát triển ý tưởng theo cách riêng thay vì lặp lại các cụm từ quen thuộc sẽ khó bị nhận diện hơn.

Ở chiều ngược lại, ChatGPT cho kết quả thấp hơn trong cùng thử nghiệm. ORA lý giải rằng đây là một trong những mô hình AI quy mô lớn xuất hiện sớm nhất trên thị trường, khiến người dùng đã quen với văn phong đặc trưng của nó, từ đó giúp các công cụ phát hiện dễ nhận diện hơn. ORA cũng cho biết nhiều mô hình ra đời sau ban đầu có xu hướng mang văn phong tương tự ChatGPT, nhưng dần phát triển phong cách riêng.

Hiệu quả giữa các công cụ phát hiện AI cũng có sự chênh lệch lớn. Grammarly chỉ nhận diện được 43,5% nội dung do AI tạo ra, thấp nhất trong nhóm, trong khi GPTZero phát hiện gần 99%, cao nhất. Điều này cho thấy cùng một văn bản có thể được đánh giá là do con người viết hoặc do AI tạo ra, tùy công cụ được sử dụng.

Theo ORA, khoảng cách này có thể dẫn tới những vướng mắc trực tiếp trong thực tế. Chẳng hạn, một bài tập của học sinh có thể vượt qua công cụ này nhưng lại bị công cụ khác gắn cờ; tương tự, tài liệu trong môi trường công sở cũng có thể bị nghi ngờ tùy theo phần mềm kiểm tra. Tiêu chí đánh giá nguồn gốc và độ tin cậy của nội dung trực tuyến vì thế có thể khác nhau đáng kể giữa các nền tảng.

Cùng với đó, văn phong của AI cũng không còn hội tụ vào một kiểu chung mà ngày càng đa dạng hơn. Một nghiên cứu gần đây thậm chí cho rằng khoảng một nửa nội dung trực tuyến có thể được tạo bởi AI. Khi sự khác biệt về phong cách giữa các mô hình ngày càng lớn, cách phát hiện dựa trên giả định rằng tồn tại một “văn phong AI” thống nhất đang dần bộc lộ giới hạn.

Kết quả thử nghiệm cho thấy Gemini không chỉ tạo ra văn bản trôi chảy mà còn cho cảm giác gần với người viết hơn. Dù các công cụ phát hiện có thể tiếp tục được cải thiện và những mô hình khác cũng có thể đi theo hướng tương tự, ranh giới giữa văn bản do con người và AI tạo ra hiện đang ngày càng trở nên khó phân định.

Yoonseo Lee yslee@d-today.co.kr

Gemini của Google vượt ChatGPT về mức độ “giống người” trong bài kiểm tra viết

Thử nghiệm với 12 chatbot cho thấy Gemini có tỷ lệ bị các công cụ phát hiện AI nhận diện thấp nhất

Đang tạo...

Tóm tắt AI

Kết quả thử nghiệm do ORA thực hiện cho thấy Gemini tạo ra văn bản khó bị các công cụ phát hiện AI nhận diện hơn các đối thủ, trong khi ChatGPT cho kết quả thấp hơn.

Từ khóa