搜索关键词 多模态输入
AI & Enterprise
Google发布多模态AI模型Gemini Omni:可基于文本、图片和音频生成视频
Google在I/O开发者大会上发布多模态AI模型Gemini Omni,能够联合理解文本、图片、音频和视频,并用于视频生成。首个版本Gemini Omni Flash已率先接入Gemini应用、YouTube Shorts和创作工具Flow,所有生成视频均嵌入SynthID数字水印;数字分身功能需单独完成注册,API预计将在未来几天内开放。
AI & Enterprise
Moonshot AI发布开源大模型Kimi-K2.6,称多项基准测试成绩超越GPT-5.4和Claude Opus 4.6
中国AI初创公司Moonshot AI发布Kimi系列最新开源大模型Kimi-K2.6,并表示其在多项AI基准测试中的成绩超过GPT-5.4和Claude Opus 4.6。该模型基于SwiGLU激活函数和MLA注意力机制,采用384专家MoE架构,单次生成仅激活8个专家,同时集成一个4亿参数视觉编码器,最多支持300个代理并行运行。
Industry
Samsung Electronics亮相MWC26:Galaxy AI拓展至终端、生态与网络
Samsung Electronics将在MWC26全面展示Galaxy AI的发展路径,从智能手机延伸至设备生态和网络领域。展会现场将以Galaxy S26系列为核心,呈现隐私显示、夜景影像、AI图像编辑及多AI代理体验;同时还将带来AI驱动工厂、互联护理、XR与三折形态(Galaxy Z Tri-fold)设备,以及面向5G专网和虚拟化网络的下一代解决方案。