Flitto阿拉伯语语音数据采集项目(图片来源:Flitto)

AI数据公司Flitto于10日宣布,已启动高质量阿拉伯语语音数据采集项目,旨在提升AI模型在多语种语音识别场景中的表现。

Flitto表示,随着全球大型科技企业对多语种语音数据的需求持续上升,公司已加快推进这一项目。

阿拉伯语除现代标准阿拉伯语(MSA)外,还存在30多种方言。与此同时,在日常口语交流中,不同方言交替使用的“代码切换”现象较为普遍,这也提高了AI训练数据构建的难度。对此,Flitto将通过旗下App的“Arcade”功能,组织真实用户参与录音采集。

根据项目设计,参与者在朗读并录制指定句子后,系统会自动识别其方言类型;如果分析结果不够明确,系统将追加句子并引导用户再次录制,以进一步提高数据准确性。

Flitto称,该项目不仅聚焦语音采集,还将围绕精细化训练数据建设,纳入说话者在表达习惯、语调和用词选择等方面的差异。公司希望借此降低语言资源差异带来的训练偏差,并提升AI模型在真实应用场景中的识别率。

Flitto首席执行官Lee Jungsoo表示,阿拉伯语使用者超过4亿,但可用于AI训练的数据仍相对不足,因此被视为低资源语言。公司将通过系统化构建能够反映阿拉伯语固有语言特征的数据,进一步提升全球AI模型的识别质量。

关键词

#Flitto #阿拉伯语 #语音数据 #AI训练数据 #多语种语音识别 #方言识别 #代码切换 #低资源语言 #Arcade
版权所有 © DigitalToday。未经授权禁止转载或传播。