Dữ liệu AI minh họa. Ảnh: Shutterstock

Bộ Khoa học và ICT Hàn Quốc ngày 7/5 cho biết đã phát động dự án nâng cấp dữ liệu huấn luyện AI, phối hợp với Cơ quan Xã hội Thông tin Quốc gia Hàn Quốc (NIA), nhằm tái cấu trúc dữ liệu học máy trên nền tảng AI Hub cho phù hợp với môi trường công nghệ AI tạo sinh.

Theo cơ quan này, dự án đã rà soát toàn bộ 691 bộ dữ liệu AI Hub được xây dựng đến năm 2022, sau đó thông qua thẩm định của các chuyên gia bên ngoài để chọn ra 30 bộ dữ liệu cuối cùng. Trong số này có 15 bộ dành cho mô hình ngôn ngữ lớn (LLM) và 15 bộ dành cho physical AI. Tổng ngân sách dự án là 3 tỷ won.

Bộ Khoa học và ICT Hàn Quốc cho biết cách tiếp cận này giúp nâng hiệu quả sử dụng ngân sách so với phương án xây dựng mới hoàn toàn.

Với nhóm dữ liệu cho LLM, dự án sẽ tái cấu trúc dữ liệu văn bản hiện có bằng cách bổ sung các quy trình suy luận như đặt câu hỏi, rà soát căn cứ, kiểm tra lỗi và hoàn thiện câu trả lời. Mục tiêu là mở rộng từ dạng dữ liệu chỉ có một đáp án sang dạng dữ liệu giúp mô hình học được nhiều bước suy luận cũng như cơ chế tự kiểm chứng.

Đối với physical AI, dự án sẽ nâng cấp dữ liệu hình ảnh và video theo cấu trúc tích hợp thông tin về thị giác, ngôn ngữ, hành động và điều khiển. Phạm vi dữ liệu cũng sẽ được mở rộng, không dừng ở nhận diện vật thể mà hướng tới khả năng hiểu sự thay đổi tình huống theo thời gian, tương tác giữa các vật thể và tạo hành động dựa trên mục tiêu.

Choi Dong-won, Vụ trưởng Vụ Chính sách Hạ tầng AI thuộc Bộ Khoa học và ICT Hàn Quốc, cho biết dự án có thể giúp bảo đảm nguồn dữ liệu huấn luyện AI phù hợp với môi trường công nghệ AI tạo sinh mới nhất với chi phí thấp hơn. Ông nhấn mạnh bộ sẽ tiếp tục nâng giá trị khai thác của các tài sản dữ liệu đã tích lũy, qua đó hạn chế lãng phí.

Từ khóa

#AI #AI Hub #LLM #physical AI #NIA #Bộ Khoa học và ICT Hàn Quốc
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.