In The Weights ra mắt, chấm điểm mức độ các mô hình AI nhận diện nhân vật

Giao diện dịch vụ In The Weights. Ảnh: In The Weights

In The Weights, một dịch vụ web cho phép đo và so sánh mức độ nhận diện của các mô hình AI tạo sinh đối với một nhân vật cụ thể, vừa được giới thiệu. Công cụ này hiển thị điểm số theo từng mô hình, qua đó cho thấy sự chênh lệch về khả năng ghi nhớ tên tuổi cũng như nguy cơ phát sinh lỗi hallucination.

Theo Gigazine ngày 19/6 (giờ địa phương), In The Weights chấm điểm mức độ một nhân vật được “ghi” vào trọng số của mô hình AI. Nói cách khác, điểm số phản ánh tên tuổi đó xuất hiện nổi bật đến đâu trong dữ liệu mà mô hình đã học.

Với các mô hình ngôn ngữ lớn (LLM), quá trình huấn luyện diễn ra trên khối dữ liệu khổng lồ và được tối ưu thông qua các trọng số nội bộ. Nếu một nhân vật có mức hiện diện cao trong mô hình, điều đó thường cho thấy cái tên này xuất hiện nhiều hoặc có tầm quan trọng tương đối lớn trong dữ liệu huấn luyện. Khi đó, mô hình cũng có xu hướng tự đưa ra mô tả về nhân vật mà không cần dựa vào tìm kiếm web bên ngoài.

In The Weights cho phép người dùng nhập cùng một tên rồi đối chiếu kết quả giữa nhiều mô hình AI tạo sinh. Danh sách hiện hỗ trợ gồm GPT-5.5, GPT-5.4 mini, Opus 4.8, Haiku 4.5, Grok 4.20, Gemini 3.1 Lite, Kimi K2 0905, DeepSeek V4, Llama 3.3 70B, Llama 3.2 1B, GLM 4.7 Flash, Mistral 3.2 24B và Qwen3 8B.

Sau khi người dùng nhập tên, hệ thống sẽ lần lượt hỏi từng mô hình “nhân vật đó là ai”. Từ câu trả lời nhận được, dịch vụ tổng hợp tối đa 10 phương án kèm mô tả ngắn và mức độ tin cậy, sau đó quy đổi thành “Strength Score”.

Trên giao diện chính, các nhân vật được tìm kiếm trong ngày và có điểm cao sẽ hiển thị ở vị trí đầu. Wolfgang Amadeus Mozart, William Shakespeare, Taylor Swift, Steven Spielberg và Elizabeth II đều nằm trong nhóm dẫn đầu với 996 điểm.

Theo Gigazine, mốc 996 dường như là ngưỡng gần tối đa của hệ thống.

Dịch vụ cũng cho thấy cùng một cái tên nhưng mức độ nhận diện có thể khác nhau đáng kể giữa các mô hình. Tim Cook, CEO của Apple, đạt 986 điểm và được xếp vào nhóm top 1%. Elon Musk, CEO của Tesla và SpaceX, đạt 992 điểm, cao hơn Tim Cook.

Trong khi đó, chính trị gia Nhật Bản Sanae Takaichi được chấm 792 điểm. Dù giao diện hiển thị ở nhóm top 3%, một số mô hình vẫn liên kết nhầm sang người trùng tên.

Chẳng hạn, Mistral 3.2 24B đã đưa ra một nhân vật hoạt hình như một phương án trả lời, dù thực tế không tồn tại nhân vật nào mang tên đó trong tác phẩm liên quan.

Hệ thống cũng tách riêng những trường hợp có khả năng sai lệch như vậy. Ở cuối kết quả, dịch vụ gắn nhãn “possible hallucination” cho các câu trả lời có độ chính xác không chắc chắn, bao gồm cả các phản hồi với mức tin cậy thấp từ Llama 3.2 1B.

Một số nhân vật lịch sử cũng ghi nhận điểm rất cao. Oda Nobunaga, nhân vật thuộc thời Chiến Quốc Nhật Bản, đạt 982 điểm.

Điều này cho thấy không chỉ doanh nhân đương đại mà cả các nhân vật lịch sử cũng đã được nhiều mô hình AI ghi nhớ ở mức cao.

Vì vậy, In The Weights không đơn thuần là công cụ tìm kiếm nhân vật. Nền tảng này thiên về việc so sánh mức độ ổn định trong cách các mô hình AI nhận diện cùng một cái tên, đồng thời phơi bày cả các phương án trả lời sai lẫn phản hồi có độ tin cậy thấp.

Theo giới công nghệ, những dịch vụ như vậy có thể trở thành công cụ để quan sát độ lệch trong quá trình huấn luyện, cũng như sự khác biệt về độ tin cậy của các mô hình AI khi xử lý thông tin về nhân vật công chúng, người nổi tiếng và nhân vật lịch sử.

Jinju Hong hongjj@d-today.co.kr

In The Weights ra mắt, chấm điểm mức độ các mô hình AI nhận diện nhân vật

Nền tảng đối chiếu cùng một cái tên trên nhiều mô hình AI

Đang tạo...

Tóm tắt AI

In The Weights cho phép đối chiếu mức độ các mô hình AI nhận diện cùng một nhân vật, qua đó cho thấy chênh lệch về độ ghi nhớ và rủi ro hallucination giữa các hệ thống.

Từ khóa