Minh họa về ontology. Ảnh: ChatGPT

Ontology đang được nhắc đến ngày càng nhiều trong ngành AI như một công nghệ có thể bù đắp cho những điểm yếu của AI tạo sinh. Sau khi Palantir nổi lên với mô hình tích hợp dữ liệu dựa trên ontology, mối quan tâm đối với lĩnh vực này cũng tăng nhanh, trong đó có nhiều doanh nghiệp công nghệ tại Hàn Quốc.

Theo giáo sư Kim Hak-rae, Khoa Thông tin - Thư viện, Đại học Chung-Ang, ontology có thể hiểu là cách biểu diễn tri thức và quan hệ giữa các khái niệm một cách rõ ràng để máy có thể xử lý và suy luận gần hơn với cách con người hiểu thế giới.

Kim Hak-rae là một trong số ít học giả tại Hàn Quốc theo đuổi nghiên cứu ontology trong thời gian dài. Ông từng tham gia xây dựng hệ từ vựng ontology cho thẻ mạng xã hội, nghiên cứu đồ thị tri thức quy mô lớn tại DERI ở Ireland và Samsung Electronics, hiện phụ trách phòng thí nghiệm HIKE của Đại học Chung-Ang.

Một ví dụ thường được dùng để giải thích ontology là cụm “ăn lê”. Khi đọc cụm này, con người gần như lập tức hiểu “lê” ở đây là một loại trái cây. Não bộ tự động chọn đúng khái niệm phù hợp với động từ “ăn” trong ngữ cảnh.

Máy tính thì không tự làm được điều đó. Để hệ thống hiểu đúng, con người phải định nghĩa trước các quan hệ như “lê là trái cây” và “trái cây có thể ăn được”. Đây chính là vai trò của ontology: biến phần tri thức ngầm con người vốn hiểu một cách tự nhiên thành dữ liệu có cấu trúc, có thể kiểm chứng và tái sử dụng.

So với các hệ thống dữ liệu quen thuộc, ontology đi theo hướng rất khác.

Cơ sở dữ liệu quan hệ, vốn được dùng phổ biến từ những năm 1970, chủ yếu lưu trữ dữ liệu dạng sự kiện, chẳng hạn “MacBook có giá 2 triệu won” hay “MacBook có màu silver và space gray”. Tuy nhiên, mô hình này không phù hợp để biểu đạt ý nghĩa khái niệm hoặc quan hệ phân cấp như “MacBook là một loại laptop”.

Trong khi đó, vector DB - loại cơ sở dữ liệu được dùng nhiều trong các dịch vụ AI gần đây - chuyển văn bản thành các biểu diễn số và đo mức độ gần nhau giữa các khái niệm. Nếu MacBook và iPhone nằm gần nhau trong cùng không gian vector, hệ thống có thể suy ra chúng gần với khái niệm “Apple”.

LLM lại vận hành theo xác suất. Mô hình không định nghĩa tách bạch từng thực thể hay quan hệ giữa các thực thể, mà học từ kho văn bản khổng lồ để dự đoán từ tiếp theo và tạo ra câu trả lời có xác suất hợp lý nhất theo ngữ cảnh.

Ontology thì ngược lại: tri thức được cấu trúc hóa một cách minh thị. Ví dụ, hệ thống có thể định nghĩa “Apple là một công ty”, “MacBook là một loại laptop”, hay “laptop có bàn phím và màn hình”. Điểm cốt lõi nằm ở việc ý nghĩa và quan hệ được viết ra rõ ràng ngay từ đầu.

Về cấu trúc, ontology thường gồm hai lớp.

Lớp thứ nhất là lớp khái niệm, tức phần “khuôn” để định nghĩa một đối tượng thuộc loại nào và cần có những thuộc tính gì. Chẳng hạn, nếu định nghĩa “sinh viên”, có thể thiết kế rằng sinh viên là một con người, có mã số sinh viên, tên, giới tính và nơi xuất thân. Nếu khuôn này được thiết kế đủ phổ quát, nó có thể dùng cho sinh viên ở nhiều quốc gia; ngược lại, nếu gắn thêm những điều kiện chỉ phù hợp với một nước, khả năng tái sử dụng sẽ giảm.

Lớp thứ hai là instance, tức dữ liệu cụ thể được đưa vào khuôn đó. Nếu “phóng viên DigitalToday” là một lớp khái niệm, thì “Son Seul-gi” hay “Hwang Chi-gyu” là các instance thuộc lớp này. Những người không phù hợp với định nghĩa đó sẽ không thể được gán vào cùng lớp.

Cách hình dung này cũng giúp phân biệt ontology với đồ thị tri thức - khái niệm được Google phổ biến rộng rãi từ năm 2012. Nếu ontology đòi hỏi cả phần khuôn khái niệm lẫn dữ liệu cụ thể, thì đồ thị tri thức trong một số trường hợp có thể chỉ tập trung vào việc nối các thực thể và quan hệ, mà không cần một hệ khái niệm chặt chẽ như ontology.

Về nguồn gốc, ontology bắt đầu từ triết học nhưng chỉ thực sự bước sang lĩnh vực công nghệ khi Tim Berners-Lee đề xuất Semantic Web vào cuối những năm 1990. Mục tiêu của Semantic Web là gắn ý nghĩa cho dữ liệu trên web để máy có thể hiểu và xử lý tốt hơn, còn ontology là một trong những phương pháp cốt lõi để hiện thực hóa mục tiêu đó.

Quy trình xây dựng ontology thường bắt đầu bằng việc các bên liên quan thống nhất khái niệm và quan hệ. Sau đó, cấu trúc được thiết kế thành mô hình và biểu diễn bằng các ngôn ngữ chuyên dụng như OWL và RDF.

Lĩnh vực này hiện đã có mức độ tiêu chuẩn hóa khá cao. Nhiều hệ từ vựng theo ngành, như vCard để biểu diễn thông tin danh thiếp hay Schema.org cho nội dung web nói chung, đã được sử dụng rộng rãi. Theo Kim Hak-rae, khoảng 70-80% thành phần cần thiết trong nhiều trường hợp đã có sẵn, nên doanh nghiệp thường tái sử dụng từ vựng hiện có thay vì xây dựng hoàn toàn từ đầu.

Lý do ontology được quan tâm trở lại gần đây nằm ở kỳ vọng công nghệ này có thể bổ sung hạn chế của LLM.

Do hoạt động theo xác suất, LLM rất khó được kiểm soát tuyệt đối chỉ bằng chỉ dẫn hoặc chính sách. Ngay cả với những nội dung bị cấm như khiêu dâm hay bạo lực, hệ thống vẫn có thể tạo ra phản hồi ngoài ý muốn nếu câu hỏi được diễn đạt theo cách vòng vo hoặc khai thác lỗ hổng ngữ cảnh.

Ontology tiếp cận theo hướng khác. Thay vì chỉ thêm quy tắc ở lớp hướng dẫn, công nghệ này can thiệp vào cấu trúc tri thức, qua đó giới hạn những kiểu suy luận hoặc hành động mà hệ thống có thể thực hiện.

Bài viết dẫn ví dụ về một sự cố liên quan đến nền tảng lập trình Replit, nơi CTO trong quá trình phát triển AI agent đã xóa toàn bộ cơ sở dữ liệu khách hàng. Nếu hệ thống được định nghĩa sẵn theo ontology với ràng buộc rằng “cơ sở dữ liệu khách hàng không được phép xóa trong bất kỳ yêu cầu nào”, sự cố này có thể đã được ngăn chặn. Theo cách nhìn đó, ontology có thể đóng vai trò như một hàng rào an toàn cho AI.

Tại Hàn Quốc, câu chuyện về ontology nóng lên đáng kể sau thành công của Palantir. Đây là công ty phần mềm AI nổi tiếng với nền tảng tích hợp dữ liệu và hỗ trợ ra quyết định dựa trên ontology. Từ đó xuất hiện hai quan điểm trái chiều: một bên cho rằng ontology có thể thay thế LLM, bên kia lại cho rằng khi LLM phát triển hơn thì ontology sẽ trở nên kém cần thiết.

Tuy nhiên, bài viết cho rằng cách nhìn “ontology đối đầu LLM” là không đúng bản chất. Trên thực tế, Palantir cũng là một trong những doanh nghiệp tận dụng LLM rất tốt. Điểm mạnh cốt lõi của công ty không nằm ở riêng ontology, mà ở năng lực xử lý và chuẩn hóa dữ liệu trên nền tảng: dữ liệu đầu vào ở nhiều định dạng khác nhau có thể nhanh chóng được chuyển thành đồ thị, qua đó tạo hiệu ứng lock-in rất mạnh sau khi khách hàng triển khai hệ thống. Trong cấu trúc đó, ontology chỉ là một trong những phương thức xử lý dữ liệu.

Dù làn sóng quan tâm đến ontology tại Hàn Quốc tăng lên trong khoảng một năm qua, số doanh nghiệp thực sự triển khai vẫn còn ít. Nhiều công ty và startup tuyên bố áp dụng công nghệ này, nhưng khi bắt đầu dự án lại vướng ngay ở khâu làm sạch và chuẩn hóa dữ liệu, khiến thời gian triển khai kết thúc trước khi kịp đi sâu vào ontology.

Một vấn đề kéo dài khác là đầu tư cho hạ tầng dữ liệu và quản trị dữ liệu chưa ổn định. Trong môi trường doanh nghiệp, mỗi bộ phận thường dùng một bộ tiêu chuẩn và quy tắc khác nhau, nên chỉ riêng việc thống nhất logic kinh doanh đã là một rào cản lớn. Vì vậy, theo bài viết, điều cần làm trước tiên không phải là chạy theo ontology, mà là củng cố nền tảng dữ liệu.

Từ khóa

#trí tuệ nhân tạo #AI #ontology #LLM #cơ sở dữ liệu quan hệ #vector DB #đồ thị tri thức #Palantir #Replit #Semantic Web #OWL #RDF #Schema.org #vCard
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.