Trụ sở Bộ Khoa học và CNTT Hàn Quốc. Ảnh: Bộ Khoa học và CNTT Hàn Quốc

Chính phủ Hàn Quốc bắt đầu đợt rà soát tổng thể đầu tiên đối với dữ liệu phục vụ huấn luyện trí tuệ nhân tạo (AI) đang phân tán trong khu vực công, nhằm xác định nguồn dữ liệu có thể khai thác và xây dựng hệ thống cung cấp tập trung.

Ngày 10/4, Bộ Khoa học và CNTT Hàn Quốc cùng Cơ quan Xã hội Thông tin Thông minh Hàn Quốc (NIA) cho biết đã triển khai “khảo sát hiện trạng dữ liệu huấn luyện AI” trên quy mô liên bộ, ngành. Đây là lần đầu tiên nước này tiến hành kiểm kê một cách có hệ thống các bộ dữ liệu huấn luyện AI do các bộ, ngành và cơ quan nhà nước nắm giữ, qua đó tạo nền tảng bảo đảm nguồn dữ liệu chất lượng cao để khai thác.

Theo cơ quan chức năng, sự lan rộng của AI tạo sinh gần đây đã đẩy nhu cầu dữ liệu tăng mạnh ở cả khu vực công lẫn tư nhân. Tuy nhiên, dữ liệu công hiện được quản lý phân tán theo từng cơ quan, khiến việc nắm bắt quy mô tổng thể và khả năng khai thác gặp nhiều khó khăn. Điều này cũng hạn chế khả năng kết nối và sử dụng dữ liệu của các doanh nghiệp AI cho mục đích huấn luyện mô hình.

Theo Luật Cơ bản về AI, Bộ Khoa học và CNTT Hàn Quốc sẽ tiến hành khảo sát toàn bộ các bộ, ngành. Trên cơ sở đó, cơ quan này sẽ rà soát có hệ thống các tài sản dữ liệu, lựa chọn 100 bộ dữ liệu có khả năng khai thác cao và cung cấp thông qua “hệ thống cung cấp tích hợp dữ liệu huấn luyện AI”.

Đợt khảo sát lần này không chỉ dừng ở số liệu về các bộ dữ liệu hiện có, mà còn bao gồm cả những dữ liệu có thể đưa vào khai thác sau khi được xử lý bổ sung trong tương lai. Các hạng mục khảo sát tập trung vào những yếu tố gắn trực tiếp với khả năng sử dụng cho huấn luyện AI, như loại dữ liệu, cấu trúc dữ liệu, mục đích xây dựng và phạm vi có thể cung cấp.

100 bộ dữ liệu được lựa chọn cuối cùng sẽ được xử lý bổ sung trước khi cung cấp, bao gồm nâng chất lượng dữ liệu và áp dụng các biện pháp khử định danh. Với những dữ liệu khó công bố trực tuyến, cơ quan chức năng sẽ cung cấp thông qua “khu an toàn dữ liệu”.

Đây là không gian được trang bị các biện pháp bảo mật vật lý và kỹ thuật để cho phép phân tích an toàn đối với những dữ liệu chưa thể mở công khai. Hiện Hàn Quốc có 14 khu an toàn dữ liệu do 11 tổ chức vận hành.

Song song với đó, Bộ Khoa học và CNTT Hàn Quốc cũng sẽ nâng cấp nền tảng “AI Hub” hiện nay thành hệ thống cung cấp tích hợp dữ liệu huấn luyện AI. Mục tiêu là hình thành một vòng tuần hoàn từ khâu phát hiện dữ liệu, bảo đảm nguồn cung đến khai thác và sử dụng, đồng thời xây dựng cơ chế thúc đẩy giao dịch dữ liệu huấn luyện AI.

Ông Kim Kyung-man, Vụ trưởng Chính sách AI thuộc Bộ Khoa học và CNTT Hàn Quốc, cho biết yếu tố cốt lõi quyết định hiệu năng và chất lượng AI là dữ liệu có thể đưa vào sử dụng. Theo ông, cơ quan này sẽ tiếp tục phát hiện có hệ thống các tài sản dữ liệu công và phát triển nền tảng cung cấp tích hợp dữ liệu huấn luyện AI.

Từ khóa

#trí tuệ nhân tạo #dữ liệu huấn luyện AI #Bộ Khoa học và CNTT Hàn Quốc #NIA #AI Hub #dữ liệu công
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.