Theo Business Insider, OpenAI đang triển khai dự án nội bộ có tên Stagecraft, huy động khoảng 3.000-4.000 freelancer để xây dựng bộ dữ liệu mô tả tác vụ theo từng ngành nghề nhằm huấn luyện ChatGPT. Phạm vi dữ liệu trải rộng trên nhiều lĩnh vực, từ nông nghiệp, chăn nuôi và sáng tác âm nhạc đến hàng không dân dụng.
Dẫn nguồn tin riêng, Business Insider cho biết tại Handshake AI, một startup chuyên gán nhãn dữ liệu, dự án này được nội bộ gọi là “Project Stagecraft”.
Theo tài liệu hướng dẫn công việc mà Business Insider tiếp cận được, các cộng tác viên phải xây dựng “persona” theo nghề nghiệp dựa trên kinh nghiệm thực tế trong ngành, sau đó soạn prompt theo cách giao việc cho đồng nghiệp trong môi trường làm việc thật. Mỗi tác vụ phải nêu rõ bối cảnh, mục tiêu, tài liệu tham khảo và đầu ra mong muốn. Các bước tạo ra đầu ra cũng phải là những thao tác có thể thực hiện trên môi trường số.
Ví dụ, một cộng tác viên có thể chọn persona là điều dưỡng, rồi yêu cầu đầu ra là bản tổng quan dài 10 trang về tài liệu y khoa liên quan đến một bệnh cụ thể.
Tài liệu đào tạo của dự án nhấn mạnh trọng tâm là “lao động trí óc, không phải lao động chân tay”. Dữ liệu thu thập được được mô tả là nhằm “lập bản đồ các tác vụ có liên quan về mặt kinh tế và đánh giá năng lực của mô hình”. Tài liệu cũng yêu cầu cộng tác viên không tự điều chỉnh mức độ chi tiết dựa trên giả định “AI sẽ cần gì”, mà phải mô tả đúng quy trình làm việc thực tế và kỳ vọng nghề nghiệp.
Một cộng tác viên cho biết mức thù lao tối thiểu dành cho freelancer là 50 USD mỗi giờ, khoảng 76.000 won. Trên website của Handshake, với các tin tuyển dụng không kết nối trực tiếp với OpenAI, thù lao cho các hợp đồng chuyên gia có thể lên tới 500 USD mỗi giờ, khoảng 759.000 won.
Quy trình rà soát được thực hiện qua ba bước. Kết quả do cộng tác viên tạo ra được Handshake AI kiểm tra hai lần, trong đó có một vòng do chuyên gia trong ngành xác nhận các chi tiết chuyên môn. Sau đó, OpenAI được cho là phụ trách vòng kiểm tra thứ ba.
Những công việc này cho thấy quá trình huấn luyện ChatGPT không còn dừng ở việc tích lũy tri thức phổ quát, mà đang tiến tới phản ánh quy trình vận hành thực tế và ngôn ngữ chuyên môn của từng vị trí nghề nghiệp. Việc cấu trúc hóa và đưa vào dữ liệu các tác vụ thuộc những lĩnh vực chuyên biệt như nông nghiệp, chăn nuôi, y tế và hàng không cũng làm dấy lên nhận định rằng phạm vi ứng dụng của AI tạo sinh đang tiếp tục mở rộng.