Các công ty trong lĩnh vực cơ sở dữ liệu và phân tích đang liên tiếp ra mắt công cụ Text-to-SQL, cho phép người dùng truy vấn bằng ngôn ngữ tự nhiên. Tuy nhiên, giới chuyên gia cảnh báo công nghệ này vẫn chưa đủ tin cậy để người không chuyên sử dụng độc lập.
Theo The Register, AWS gần đây đã công bố một giải pháp Text-to-SQL dựa trên nền tảng Bedrock. Snowflake cũng giới thiệu Cortex Analyst, công cụ kết nối các cách diễn đạt trong kinh doanh như “doanh thu tháng trước” với thuật ngữ kỹ thuật để hệ thống cơ sở dữ liệu có thể hiểu. MongoDB cũng đã ra mắt API truy vấn ngôn ngữ tự nhiên riêng, được xây dựng trên LangChain.
Nhận định về xu hướng này, giáo sư Nick Koudas, thuộc Khoa Khoa học Máy tính của Đại học Toronto, cho biết khi người không chuyên sử dụng, hệ thống có thể tạo ra câu lệnh đúng cú pháp nhưng không phản ánh đúng ý định ban đầu. Theo ông, độ chính xác của các hệ thống Text-to-SQL hiện ở mức khoảng 80%, thấp hơn mức khoảng 93% của chuyên gia con người.
Ông cũng lưu ý phần lớn doanh nghiệp đều có dữ liệu riêng cùng hệ thống thuật ngữ nội bộ, khiến các mô hình ngôn ngữ lớn (LLM) khó hiểu chính xác nếu không được huấn luyện bổ sung.
Rủi ro lớn hơn nằm ở chỗ truy vấn có thể đúng cú pháp nhưng sai nghĩa. Nếu lỗi cú pháp xảy ra, câu lệnh sẽ không chạy và người dùng dễ nhận ra. Ngược lại, truy vấn sai nghĩa vẫn có thể trả về kết quả, nhưng là kết quả lệch so với yêu cầu thực tế, nên khó bị phát hiện hơn, theo The Register.
Giáo sư Koudas nhấn mạnh rằng ở giai đoạn hiện nay, quy trình tạo truy vấn SQL bằng ngôn ngữ tự nhiên cho người không chuyên vẫn cần có sự tham gia của chuyên gia để kiểm tra câu lệnh và đối chiếu kết quả đầu ra.
Một hướng tiếp cận khác đang được giới nghiên cứu xem xét là nâng độ chính xác bằng cách để LLM hỏi lại người dùng. Theo The Register, ngôn ngữ tự nhiên vốn mơ hồ và nhiều sắc thái, nên khi gặp những token chưa chắc chắn, mô hình có thể yêu cầu người dùng làm rõ, chẳng hạn một cách diễn đạt đang mang nghĩa A hay B, trước khi hoàn thiện truy vấn.
Theo giáo sư Koudas, Text-to-SQL nên được xem là công cụ giúp tăng năng suất cho lập trình viên, thay vì một công nghệ có thể thay thế họ.