GDELT đang mở rộng các thử nghiệm AI để phân tích và dịch khối lượng lớn tin tức, tài liệu. Ảnh: GDELT

Dự án GDELT, nền tảng thu thập và phân tích theo thời gian thực tin tức cùng dữ liệu xã hội toàn cầu, vừa công bố loạt thử nghiệm ứng dụng trí tuệ nhân tạo (AI) để xử lý khối lượng lớn tin tức và tài liệu chính sách.

Theo Gigazine ngày 15/3 (giờ địa phương), GDELT là kho dữ liệu toàn cầu liên tục thu thập nội dung được xuất bản bằng hơn 100 ngôn ngữ, gồm truyền hình, báo in và tin tức trên web, sau đó chuẩn hóa thành cơ sở dữ liệu. Dự án kết nối con người, tổ chức, địa điểm, sự kiện và nguồn tin thành một mạng lưới dữ liệu, qua đó cung cấp bức tranh về diễn biến toàn cầu, bối cảnh sự kiện và xu hướng dư luận.

GDELT do nhà khoa học dữ liệu Kalev Leetaru và nhà khoa học chính trị Philip Schrodt đồng sáng lập. Dự án thu thập dữ liệu từ tin tức và mạng xã hội từ năm 1979 đến nay, đồng thời mã hóa định lượng các sự kiện xã hội cùng phản ứng liên quan để phục vụ phân tích xu hướng chính trị, kinh tế và xã hội trên phạm vi toàn cầu.

Dự án cũng mở dữ liệu quy mô lớn cho giới nghiên cứu và nhà báo khai thác. Bộ dữ liệu gồm ba luồng chính: dữ liệu sự kiện, phân loại các hoạt động vật lý trên toàn cầu thành hơn 300 nhóm; dữ liệu quan hệ, ghi lại con người, tổ chức, địa điểm, chủ đề và cảm xúc; cùng dữ liệu phân tích “câu chuyện thị giác” của ảnh báo chí. Toàn bộ dữ liệu được cập nhật khoảng 15 phút một lần.

GDELT hiện vận hành một “nền tảng xuyên ngôn ngữ” (translingual platform), sử dụng hệ thống dịch nội bộ để dịch và xử lý theo thời gian thực tin tức toàn cầu bằng 65 ngôn ngữ.

Gần đây, dự án tăng tốc các thử nghiệm phân tích bằng AI. Một thử nghiệm sử dụng mô hình dựa trên Gemini để tự động trích xuất từ tin tức toàn cầu các thông báo về thay đổi lãnh đạo trong chính phủ và doanh nghiệp, sau đó hệ thống hóa thành đồ thị tri thức. AI không chỉ tổng hợp thông tin nhân sự mà còn phân tích bối cảnh chính trị, kinh tế để tạo báo cáo.

Ở một thử nghiệm khác, nhóm nghiên cứu đưa Đạo luật Ủy quyền Quốc phòng Mỹ dài khoảng 3.100 trang vào mô hình AI để chuyển toàn bộ nội dung thành infographic. Quá trình này đồng thời bao gồm phân tích chủ đề, hệ thống hóa các dự luật liên quan và xây dựng bộ câu hỏi dự kiến.

GDELT cũng công bố thử nghiệm dịch thuật quy mô lớn. Theo thông báo hồi tháng 2/2026, dự án đã dùng AI để dịch khoảng 3 triệu bản tin truyền hình tích lũy trong 25 năm. Tổng chi phí để dịch 62 tỷ ký tự, tương đương khoảng 6 tỷ giây dữ liệu phát sóng, vào khoảng 74.634 USD; trong khi cách làm trước đây được ước tính có thể tiêu tốn tới hàng triệu USD.

Loạt thử nghiệm này cho thấy AI đã có thể phân tích và tổng hợp khối lượng lớn tin tức cũng như tài liệu chính sách. Theo giới chuyên gia, phương pháp phân tích dựa trên dữ liệu như vậy có thể trở thành một công cụ mới để hiểu các xu hướng chính trị và kinh tế toàn cầu trong tương lai.

Từ khóa

#GDELT Project #trí tuệ nhân tạo #Gemini #dịch tự động #phân tích dữ liệu toàn cầu #đồ thị tri thức
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.