Ảnh: Shutterstock

Microsoft đã công bố 3 mô hình trí tuệ nhân tạo do hãng tự phát triển, gồm MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2, đồng thời áp dụng chiến lược định giá thấp hơn Amazon và Google.

Theo VentureBeat ngày 2/4 (giờ địa phương), bộ ba mô hình mới lần lượt phục vụ nhận dạng giọng nói, tạo giọng nói và tạo hình ảnh. Các mô hình hiện được cung cấp thông qua Microsoft Foundry và MAI Playground.

Trong đó, MAI-Transcribe-1 là mô hình phiên âm giọng nói. Trên bộ đánh giá nhận dạng giọng nói đa ngôn ngữ FLEURS, mô hình này đạt tỷ lệ lỗi từ (WER) trung bình 3,8% ở 25 ngôn ngữ phổ biến. Theo bài báo, MAI-Transcribe-1 vượt OpenAI Whisper-large-v3 ở cả 25 ngôn ngữ và vượt Google Gemini 3.1 Flash ở 22 trong số 25 ngôn ngữ. Microsoft hiện thử nghiệm tích hợp mô hình này vào chế độ thoại của Copilot và tính năng chép lời cuộc họp trên Teams.

MAI-Voice-1 có thể tạo một đoạn âm thanh dài 60 giây chỉ trong 1 giây, đồng thời sao chép giọng nói cá nhân từ một mẫu giọng dài vài giây. Dịch vụ này có giá 22 USD cho mỗi 1 triệu ký tự.

Với MAI-Image-2, Microsoft cho biết mô hình này lọt top 3 trên bảng xếp hạng của nền tảng đánh giá AI Arena.ai và có tốc độ nhanh hơn 2 lần so với phiên bản trước. Dịch vụ được tính phí 5 USD cho mỗi 1 triệu token đầu vào văn bản và 33 USD cho mỗi 1 triệu token đầu ra hình ảnh. WPP tham gia với tư cách đối tác doanh nghiệp ban đầu.

Một điểm đáng chú ý là quy mô nhóm phát triển khá nhỏ. Mustafa Suleyman, người đứng đầu mảng Microsoft AI, cho biết mô hình giọng nói được phát triển bởi 10 người, trong khi phần lớn cải thiện về tốc độ, hiệu quả và độ chính xác đến từ kiến trúc mô hình và dữ liệu. Ông cũng cho biết nhóm phát triển mô hình hình ảnh có chưa đến 10 người.

Microsoft đồng thời theo đuổi chiến lược định giá thấp. Suleyman nói mức giá hiện được đặt thấp hơn Amazon và Google, và đây là chủ đích của công ty. Cổ phiếu Microsoft đã giảm khoảng 17% từ đầu năm, trong bối cảnh áp lực từ nhà đầu tư về việc thương mại hóa các khoản đầu tư vào AI ngày càng lớn.

Suleyman cũng cho biết Microsoft sẽ tiếp tục phát triển các mô hình độc lập trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Mục tiêu của hãng là khi cần thiết, có thể cung cấp các mô hình tiên tiến với hiệu suất cao nhất, chi phí thấp nhất và đạt mức độ độc lập hoàn toàn.

Từ khóa

#Microsoft #AI #MAI-Transcribe-1 #MAI-Voice-1 #MAI-Image-2 #Microsoft Foundry #MAI Playground #Copilot #Teams #Mustafa Suleyman
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.