DeepSeek. Ảnh: Shutterstock

DeepSeek vừa ra mắt DSpark, công nghệ mã nguồn mở nhằm tăng tốc quá trình suy luận của các mô hình ngôn ngữ lớn mà không cần thay đổi bản thân mô hình. Theo VentureBeat, giải pháp này giúp cải thiện tốc độ phản hồi mà người dùng cảm nhận được thêm 60-85%, đồng thời nâng thông lượng toàn hệ thống lên tối đa 661%.

DSpark tập trung tối ưu giai đoạn suy luận thay vì can thiệp vào cấu trúc mô hình. Cách tiếp cận này được thiết kế để rút ngắn thời gian tạo phản hồi của AI, trong khi vẫn giữ nguyên mô hình gốc.

Theo VentureBeat, các chatbot AI hiện nay thường sinh văn bản theo cách tuần tự, từng token một. Với DSpark, một mô hình phụ có kích thước nhỏ hơn và tốc độ xử lý nhanh hơn sẽ dự đoán trước một số token kế tiếp, còn mô hình lớn sẽ đối chiếu các dự đoán đó theo lô. Nếu dự đoán chính xác, hệ thống có thể xuất ra nhiều token trong một lần để tăng tốc; nếu không khớp, chỉ phần dự đoán sai bị loại bỏ và xử lý lại.

DeepSeek cho biết trong các thử nghiệm thực tế, DSpark giúp tăng tốc phản hồi thực tế từ 60% đến 85%. Bên cạnh đó, thông lượng tổng thể của hệ thống cũng tăng tối đa 661%.

VentureBeat cho biết DSpark được xây dựng trên hai kỹ thuật cốt lõi. Thứ nhất, mô hình phụ có thể dự đoán đồng thời nhiều token và tận dụng ngữ cảnh để nâng độ chính xác. Thứ hai, hệ thống tự điều chỉnh phạm vi xác minh theo tải máy chủ: khi tải thấp, số lượng dự đoán được xác minh sẽ nhiều hơn; khi tải cao, hệ thống sẽ bỏ qua những dự đoán có xác suất sai lớn.

DSpark không chỉ dùng cho mô hình DeepSeek V4 mà còn có thể áp dụng cho nhiều mô hình mã nguồn mở khác như Alibaba Qwen và Google Gemma. DeepSeek cũng đã công bố mã nguồn, quy trình huấn luyện và checkpoint của DSpark theo giấy phép MIT, cho phép sử dụng cho cả mục đích nghiên cứu lẫn thương mại.

Từ khóa

#DeepSeek #DSpark #trí tuệ nhân tạo #tăng tốc suy luận #mã nguồn mở #giấy phép MIT #VentureBeat #Alibaba Qwen #Google Gemma
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.