简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词 MMLU

AI & Enterprise

研究称：让大模型扮演“专家”未必更准，编程和数学任务表现反而下滑

南加州大学（USC）研究团队对6款AI模型测试“专家角色”提示词后发现，“你是某领域专家”等设定并不会稳定提升回答质量，反而可能拖累编程、数学及部分知识类任务表现。研究认为，模型可能将计算资源用于遵循角色设定，而非调用事实信息；不过在JailbreakBench测试中，这类提示词对拦截不当内容的表现有所改善。

Industry

NVIDIA在韩开放700万条合成人物画像数据，加速复制“CUDA式”生态路径

NVIDIA近期在韩国持续加码AI资源布局，先后在Hugging Face发布并开放包含700万条韩语合成人物画像的Nemotron-Personas-Korea数据集，并追加发布多模态推理模型Nemotron3 Nano Omni。业界认为，NVIDIA正通过模型、数据、框架和硬件四个层面同步推进生态布局，在降低开发门槛的同时，进一步把训练和推理的最优环境引向自家GPU技术栈。

AI & Enterprise

DeepSeek发布V4系列模型：开源低价，对标Opus 4.7和GPT-5.5

中国AI公司DeepSeek推出V4系列模型，主打开源和低价。其中，V4 Pro采用1.6万亿参数MoE架构，支持100万token上下文；V4 Pro和V4 Flash均基于约33万亿token完成训练，多项基准测试表现接近Opus 4.7和GPT-5.5。市场分析认为，其性价比优势或推动企业采用，但地缘政治和使用依赖风险仍需关注。

AI & Enterprise

KT自研大模型“Mi:um K”登上AAII榜单，居韩国中小参数模型第一

2026.01.05 12:04