面对AI Agent加速进入企业场景的趋势,Red Hat正重新调整其AI平台战略。
据Techzine近日报道,Red Hat的最新方向是打造一套覆盖从硬件到Agent的开源全栈平台,帮助企业在控制成本的同时,提升AI基础设施的自主运营能力。
Red Hat CTO Chris Wright表示,AI token成本虽然每年下降75%至90%,但企业环境中的token使用量却以每年超过500%的速度增长。与此同时,高阶推理模型消耗的token数量通常是标准模型的10倍至20倍,而自治型AI Agent还会在此基础上再放大约5倍。他认为,从成本和运营角度看,长期依赖外部API和专有前沿模型并不可持续。
Wright指出,企业若想真正控制AI成本,不能只停留在付费调用外部服务的模式,而应逐步转向基于自有基础设施直接运行AI。
围绕这一思路,Red Hat推出了面向端到端AI部署的Red Hat AI Enterprise。该方案构建起一套从硬件到Agent的五层技术栈。
在基础设施层,Red Hat AI Enterprise以Red Hat Enterprise Linux和OpenShift为核心。推理层则引入被广泛采用的开源推理引擎vLLM,并结合Red Hat自研的分布式推理框架llm-d。Red Hat称,llm-d可将token吞吐提升至3倍,并把首个token响应时间缩短至原来的十分之一。
在模型服务层,Red Hat通过模型即服务(MaaS)模式,将AI模型作为企业内部共享资源统一提供。
该平台已验证并支持IBM Granite、Mistral等开源模型,企业可根据不同场景灵活组合多种模型,而不必绑定单一模型。与此同时,AI网关可对token配额、团队访问权限和任务优先级进行集中管理,避免零散的试点项目过度占用GPU资源,影响核心业务运行。
在最上层,Red Hat将提供Agent相关服务。Wright表示,在大型企业中,同时运行数千乃至数万个Agent很快会成为常态。Red Hat计划通过AgentOps为每个Agent建立可验证的数字身份,并引入版本管理和自动化安全测试机制。
在硬件层面,Red Hat强调自身保持硬件中立,支持Nvidia、AMD、Intel等不同厂商的加速器,并与Nvidia合作建设AI Factory,原生支持Blackwell GPU。
Wright还表示,开源模型与专有模型之间的差距正在快速缩小。以Meta Llama 2为例,该模型用了8个月达到早期ChatGPT的水平;而DeepSeek-R1则在OpenAI o1发布5个月后实现追平。他警告称,长期绑定单一供应商的AI战略风险较高。