搜索关键词 MMLU
AI & Enterprise
研究称:让大模型扮演“专家”未必更准,编程和数学任务表现反而下滑
南加州大学(USC)研究团队对6款AI模型测试“专家角色”提示词后发现,“你是某领域专家”等设定并不会稳定提升回答质量,反而可能拖累编程、数学及部分知识类任务表现。研究认为,模型可能将计算资源用于遵循角色设定,而非调用事实信息;不过在JailbreakBench测试中,这类提示词对拦截不当内容的表现有所改善。
Industry
NVIDIA在韩开放700万条合成人物画像数据,加速复制“CUDA式”生态路径
NVIDIA近期在韩国持续加码AI资源布局,先后在Hugging Face发布并开放包含700万条韩语合成人物画像的Nemotron-Personas-Korea数据集,并追加发布多模态推理模型Nemotron3 Nano Omni。业界认为,NVIDIA正通过模型、数据、框架和硬件四个层面同步推进生态布局,在降低开发门槛的同时,进一步把训练和推理的最优环境引向自家GPU技术栈。
AI & Enterprise
DeepSeek发布V4系列模型:开源低价,对标Opus 4.7和GPT-5.5
中国AI公司DeepSeek推出V4系列模型,主打开源和低价。其中,V4 Pro采用1.6万亿参数MoE架构,支持100万token上下文;V4 Pro和V4 Flash均基于约33万亿token完成训练,多项基准测试表现接近Opus 4.7和GPT-5.5。市场分析认为,其性价比优势或推动企业采用,但地缘政治和使用依赖风险仍需关注。