OpenAI ngày 16/4 (giờ địa phương) công bố GPT-Rosalind, mô hình ngôn ngữ lớn chuyên sâu cho lĩnh vực sinh học. Theo Ars Technica, điểm khác biệt của mô hình này là được huấn luyện bám sát các quy trình nghiên cứu sinh học, thay vì phát triển theo hướng một mô hình khoa học đa dụng.
GPT-Rosalind được OpenAI đưa ra để xử lý hai bài toán phổ biến trong nghiên cứu sinh học. Thứ nhất là khối dữ liệu tích lũy suốt nhiều thập kỷ, từ giải trình tự hệ gen đến dữ liệu sinh hóa protein, đã vượt quá khả năng xử lý của từng nhà nghiên cứu riêng lẻ.
Thứ hai là khoảng cách lớn về kỹ thuật và thuật ngữ giữa các phân ngành sinh học, khiến các nhà khoa học khó theo kịp tài liệu ngoài chuyên môn của mình. Chẳng hạn, một nhà di truyền học nghiên cứu các gen được kích hoạt trong tế bào não có thể gặp khó khi tiếp cận lượng tài liệu đồ sộ của ngành thần kinh sinh học.
Tại buổi gặp gỡ báo chí, Yoon-Yoon Wang, lãnh đạo sản phẩm khoa học sự sống của OpenAI, cho biết công ty đã huấn luyện GPT-Rosalind trên 50 quy trình làm việc phổ biến nhất trong sinh học, đồng thời dạy mô hình cách truy cập các cơ sở dữ liệu sinh học công cộng quy mô lớn.
Theo Wang, sau quá trình huấn luyện bổ sung, GPT-Rosalind được thiết kế để đề xuất các con đường sinh học tiềm năng và ưu tiên những mục tiêu thuốc có triển vọng. Mô hình cũng có thể liên kết kiểu gen với kiểu hình dựa trên các con đường và cơ chế điều hòa đã biết, đồng thời suy luận về đặc tính cấu trúc và chức năng của protein.
OpenAI cho biết trọng tâm của họ là đưa hiểu biết về cơ chế sinh học vào quá trình nghiên cứu thực tế. Công ty cũng tìm cách giảm xu hướng phản hồi quá dễ dãi hoặc quá lạc quan vốn thường thấy ở các LLM. Theo OpenAI, mô hình đã được tinh chỉnh để đưa ra đánh giá thận trọng hơn đối với các mục tiêu thuốc không phù hợp.
Công ty nhấn mạnh năng lực suy luận và khả năng đạt “cấp độ chuyên gia” của GPT-Rosalind. OpenAI định nghĩa suy luận là khả năng xử lý các quy trình phức tạp, gồm nhiều bước, trong khi đánh giá “cấp độ chuyên gia” được dựa trên kết quả của một số bài kiểm thử chuẩn.
Dù vậy, khả năng hạn chế hiện tượng ảo giác của mô hình vẫn chưa được kiểm chứng rõ. Các LLM vẫn có thể tạo ra thông tin sai lệch, kể cả khi được yêu cầu giải thích quá trình đi đến kết luận.
Trong giai đoạn ứng dụng, mô hình có thể vừa tạo ra những phát hiện tích cực như nhận diện các mối liên hệ bất ngờ, vừa có nguy cơ đưa ra các đề xuất sai một cách rõ ràng.
Phạm vi tiếp cận trước mắt cũng sẽ bị giới hạn. OpenAI cho biết họ triển khai GPT-Rosalind một cách thận trọng do lo ngại mô hình có thể bị lạm dụng để làm tăng khả năng lây nhiễm của virus.
Hiện tại, chỉ các tổ chức đặt trụ sở tại Mỹ mới có thể nộp đơn đăng ký theo diện giới hạn, và OpenAI sẽ tự lựa chọn các đơn vị được cấp quyền sử dụng.
Song song đó, công ty cho biết sẽ cung cấp cho người dùng phổ thông các plugin nghiên cứu khoa học sự sống với mức độ hạn chế hơn. Cách tiếp cận của OpenAI là phân tầng rủi ro và mở quyền truy cập theo từng bước, thay vì cung cấp toàn bộ tính năng chuyên biệt cho khoa học sự sống ngay từ đầu.
Nhiều doanh nghiệp khác cũng đang phát triển các mô hình AI hướng tới lĩnh vực khoa học sự sống. Tuy nhiên, GPT-Rosalind được OpenAI định vị khác biệt ở mức độ chuyên sâu hơn vào sinh học. Dẫu vậy, hiệu quả cải thiện năng suất nghiên cứu của mô hình vẫn cần được đánh giá thêm qua kết quả sử dụng thực tế.