Krafton giới thiệu thương hiệu AI Raon và công bố 4 mô hình mã nguồn mở trên Hugging Face. Ảnh: Krafton

Krafton ngày 2/4 cho biết đã ra mắt thương hiệu mô hình trí tuệ nhân tạo Raon, đồng thời công bố mã nguồn mở 4 mô hình trên nền tảng Hugging Face, gồm mô hình ngôn ngữ lớn về giọng nói, mô hình thoại thời gian thực, mô hình chuyển văn bản thành giọng nói và bộ mã hóa thị giác.

Theo Krafton, Raon được đặt tên dựa trên một từ tiếng Hàn mang nghĩa “niềm vui”. Công ty cho biết đã tự triển khai toàn bộ quy trình phát triển mô hình nền tảng, từ thu thập dữ liệu, huấn luyện đến đánh giá hiệu năng.

4 mô hình được công bố gồm Raon-Speech, Raon-SpeechChat, Raon-OpenTTS và Raon-VisionEncoder.

Trong đó, Raon-Speech là mô hình ngôn ngữ giọng nói có khả năng hiểu và tạo giọng nói, được mở rộng từ mô hình ngôn ngữ tập trung vào văn bản. Mô hình có quy mô 9 tỷ tham số và, theo đánh giá tổng hợp trên 7 tác vụ cùng 40 bộ benchmark như chuyển giọng nói thành văn bản, chuyển văn bản thành giọng nói và hỏi đáp bằng giọng nói, đã xếp đầu ở hạng mục tiếng Anh và tiếng Hàn trong nhóm mô hình giọng nói công khai dưới 10 tỷ tham số.

Raon-SpeechChat ứng dụng công nghệ giao tiếp thời gian thực hai chiều (full-duplex), cho phép ngắt lời trong lúc hội thoại. Trên 3 bộ benchmark dành cho mô hình full-duplex, mô hình này nằm trong nhóm dẫn đầu về kết quả trung bình ở 13 tác vụ, gồm phản hồi đệm, xử lý ngắt lời và độ trễ phản hồi.

Raon-OpenTTS là mô hình chuyển văn bản thành giọng nói được huấn luyện bằng dữ liệu giọng nói công khai. Krafton cho biết một phần dữ liệu đã được công ty tự thu thập, tinh chỉnh rồi công bố, đồng thời mở mã nguồn toàn bộ dữ liệu huấn luyện.

Với Raon-VisionEncoder, đây là bộ mã hóa thị giác chuyển đổi hình ảnh thành thông tin để AI có thể hiểu. Krafton cho biết mô hình được huấn luyện từ đầu trong nội bộ, thay vì sử dụng mô hình tiền huấn luyện. Trong một số tác vụ nhận thức thị giác, mô hình này đạt kết quả vượt hoặc bằng 90% mức hiệu năng của SigLIP2, bộ mã hóa thị giác do Google phát triển. Công nghệ này dự kiến sẽ được ứng dụng cho dự án xây dựng mô hình nền tảng AI độc lập.

Ông Lee Kang-wook, Giám đốc AI của Krafton, cho biết việc công bố loạt mô hình Raon là một phần trong quá trình tích lũy năng lực công nghệ AI của công ty. Theo ông, việc chia sẻ mã nguồn mở cho dữ liệu huấn luyện và các mô hình cốt lõi được kỳ vọng sẽ giúp giới nghiên cứu và nhà phát triển khai thác rộng rãi hơn, qua đó góp phần thúc đẩy hệ sinh thái AI trong nước.

Trước đó, Krafton đã giới thiệu trợ lý AI cá nhân KIRA vào năm ngoái. Tháng trước, công ty cũng công bố mã nguồn mở công nghệ Terminus-KIRA nhằm cải thiện hiệu năng của các tác nhân AI.

Từ khóa

#Krafton #Raon #AI #Hugging Face #TTS #full-duplex #Raon-Speech #Raon-SpeechChat #Raon-OpenTTS #Raon-VisionEncoder
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.