Một nghiên cứu mới cho thấy các hệ thống AI dùng trong tuyển dụng có xu hướng đánh giá cao hơn những CV được viết bởi chính mô hình đó, từ đó làm tăng khả năng hồ sơ được giữ lại cho vòng phỏng vấn.
Theo Gigazine ngày 11/5, nhóm nghiên cứu đến từ Đại học Maryland, Đại học Quốc gia Singapore và Đại học Bang Ohio gọi hiện tượng này là “AI self-preference bias”, tức xu hướng mô hình ưu ái văn bản do chính nó tạo ra, và kiểm tra liệu hiện tượng này có xuất hiện trong quy trình sàng lọc hồ sơ hay không.
Nghiên cứu xuất phát từ thực tế ngày càng nhiều ứng viên dùng AI để chỉnh sửa CV, trong khi doanh nghiệp cũng triển khai AI để sàng lọc hồ sơ. Theo nhóm tác giả, tình huống tương tự cũng xuất hiện trên mạng xã hội, khi người dùng tạo nội dung bằng AI còn nền tảng lại dùng AI để phân loại và lọc nội dung.
Nhóm nghiên cứu cho rằng khi đánh giá tính công bằng của AI trong tuyển dụng, không thể chỉ xem xét các dạng thiên vị liên quan đến giới tính hay chủng tộc, mà còn cần tính đến thiên lệch phát sinh khi AI chấm văn bản do AI tạo ra.
Thí nghiệm được thực hiện trên bộ dữ liệu của dịch vụ viết CV LiveCareer.com, gồm 2.245 CV do con người viết trước thời kỳ AI tạo sinh phổ biến.
Trong đó, nhóm giữ nguyên các thông tin nền như học vấn và kinh nghiệm làm việc, chỉ viết lại phần tóm tắt hồ sơ bằng GPT-4o, DeepSeek-V3, Qwen 2.5-72B và Llama 3.3-70B để tạo khác biệt về văn phong. Sau đó, các mô hình AI được yêu cầu chấm điểm phiên bản do con người viết và phiên bản do AI viết, rồi chọn CV tốt hơn.
Kết quả cho thấy phần lớn mô hình thường chọn văn bản do chính cùng mô hình tạo ra thay vì bản do con người viết. Mức độ thiên lệch được ghi nhận ở mức 97,6% với GPT-4o, 96,3% với Llama 3.3-70B, 95,9% với Qwen 2.5-72B và 95,5% với DeepSeek-V3.
Nhóm cũng kiểm tra khả năng AI đơn thuần chọn câu chữ “hay hơn”. Sau khi kiểm soát các yếu tố như độ dài, độ phức tạp từ vựng, văn phong và mức tương đồng ngữ nghĩa, họ tiếp tục so sánh các bản tóm tắt có chất lượng tương đương và nhận thấy xu hướng tự ưu ái vẫn tồn tại.
Sau khi đã cân bằng chất lượng, tỷ lệ thiên lệch còn 81,9% với GPT-4o, 78,9% với Llama 3.3-70B, 78,0% với Qwen 2.5-72B và 71,6% với DeepSeek-V3.
Khi đối chiếu với đánh giá của con người, kết quả vẫn đi theo xu hướng tương tự. Ngay cả trong những trường hợp người chấm đánh giá bản tóm tắt do con người viết tốt hơn về độ rõ ràng, trôi chảy, nhất quán, ngắn gọn và chất lượng tổng thể, GPT-4o, DeepSeek-V3 và Llama 3.3-70B vẫn có lúc chọn bản do chính mình tạo ra.
Tuy nhiên, không phải mọi tổ hợp mô hình đều cho ra cùng một kiểu thiên lệch. DeepSeek-V3 thể hiện xu hướng ưu ái văn bản do chính DeepSeek-V3 tạo ra rõ rệt hơn so với văn bản do các mô hình khác viết.
Trong khi đó, với GPT-4o và Llama 3.3-70B, mức độ thiên lệch thay đổi theo đối tượng so sánh và không nhất quán như khi đối chiếu với bản do con người viết.
Nhóm nghiên cứu cũng mô phỏng một kịch bản gần với tuyển dụng thực tế. Với 5 ứng viên, họ chuẩn bị 10 CV, gồm 5 bản tóm tắt do con người viết và 5 bản do chính mô hình đánh giá tạo ra, rồi yêu cầu AI chọn 4 người vào vòng phỏng vấn.
Về nguyên tắc, nếu năng lực thực chất của các ứng viên là như nhau, mỗi nhóm phải được chọn trung bình 2 hồ sơ. Tuy nhiên, những CV có phần tóm tắt do cùng mô hình tạo ra lại được giữ lại cho vòng phỏng vấn nhiều hơn từ 23% đến 60% so với CV có phần tóm tắt do con người viết.
Kết quả cũng khác nhau theo vị trí tuyển dụng. Ở các nhóm nghề liên quan đến kinh doanh như bán hàng và kế toán, lợi thế của bản tóm tắt do AI tạo ra thể hiện rõ hơn. Trong khi đó, ở các nhóm nghề liên quan đến ô tô và nông nghiệp, chênh lệch thấp hơn.
Nhóm tác giả cảnh báo nếu hiện tượng này lặp lại trên diện rộng, thị trường có thể hình thành hiệu ứng “khóa chặt”, trong đó văn phong của một số mô hình AI phổ biến dần trở thành khuôn mẫu ngầm đối với ứng viên.
Nghiên cứu cũng thử nghiệm một số biện pháp giảm thiên lệch. Cách thứ nhất là thêm chỉ dẫn vào system prompt, yêu cầu AI đánh giá CV mà không phân biệt văn bản do con người hay AI viết, chỉ tập trung vào chất lượng nội dung.
Cách thứ hai là không giao việc chấm hồ sơ cho một mô hình đơn lẻ, mà áp dụng cơ chế bỏ phiếu đa số giữa nhiều mô hình, bao gồm cả các mô hình nhỏ có mức tự ưu ái thấp hơn.
Với cách thứ nhất, mức thiên lệch của GPT-4o giảm từ 82% xuống 61%, còn Llama 3.3-70B giảm từ 79% xuống 30%. Với cơ chế bỏ phiếu đa số, tỷ lệ này của GPT-4o giảm từ 82% xuống 30%, Llama 3.3-70B từ 79% xuống 23% và DeepSeek-V3 từ 72% xuống 29%.
Nhóm nghiên cứu nhận định việc buộc AI tập trung vào chất lượng nội dung hoặc triển khai cơ chế đánh giá đa mô hình có thể giúp giảm bớt thiên lệch.
Kết quả nghiên cứu cho thấy rủi ro của AI trong tự động hóa tuyển dụng không chỉ nằm ở khả năng suy đoán thuộc tính của ứng viên. Khi doanh nghiệp cùng lúc dùng một dòng AI cho cả khâu viết CV lẫn sàng lọc hồ sơ, nguy cơ tiêu chí đánh giá bị kéo lệch theo văn phong của một mô hình cũng tăng lên.