OpenAI首席执行官Sam Altman承认,ChatGPT语音模式会出现错误答案,并且在被纠正后仍坚持原回答的情况,属于“已知问题”,相关修复“可能仍需一年以上”。
据CleanTechnica当地时间13日报道,Altman的这番表态进一步放大了外界对AI服务可靠性的担忧,也再度引发对OpenAI管理层技术领导力的质疑。
争议起于播客《Mostly Human》中的一段采访。TikTok用户Husk表示,他曾使用ChatGPT语音模式记录“1英里(约1.6公里)跑步计时”,但过程在几秒后便结束,ChatGPT随后却认定其用时超过10分钟。即便Husk指出这一结果明显有误,ChatGPT仍坚持原先答案正确。
对此,Altman在短暂思考后回应称,这种情况属于“已知问题”。当被问及何时能够修复时,他表示,“可能还需要一年以上”。作为OpenAI负责人,这一回应也被外界视为进一步推高争议。
外界质疑的焦点并不只是一次简单的计算失误,而在于模型在无法确认答案时,并不会明确表示“不知道”,反而会直接生成看似确定的答案;即使用户随后要求更正,模型仍可能继续坚持原有判断。
这也让外界再次把焦点转向AI服务的可靠性。部分用户指出,ChatGPT往往以权威、确定的口吻输出结果,但对不确定性的披露明显不足;而在纠正错误信息时,模型也可能继续固守原答案。
相关讨论随后延伸至对管理层的评价。《纽约客》近期援引OpenAI内部人士报道称,部分工程师认为Altman对技术本身的理解不足。Futurism在梳理相关报道时也提到,依据对多名工程师的采访,Altman在编程和机器学习方面的经验相对有限,甚至会混淆一些基础AI术语。
OpenAI前研究员Carol Wainwright评价称,Altman“会在文件层面搭建一些限制自己的结构,但当这些限制真正要生效时,他又会把这些结构拆掉”。另有科技行业人士称,Altman擅长通过董事会层面的操作掩盖技术短板,因此获得了“Jedi mind trick(操纵对方认知)”的名声。
上述争议表明,AI服务的性能问题,正在从单纯的产品质量争议,扩大为对CEO判断能力及公司治理方式的审视。尤其是像ChatGPT这样已被广泛用于日常问答和任务处理的服务,如果持续出现“明明出错却不认错”的回答模式,用户信任恐将直接受到冲击。