
Home 4月21日报告说,OpenAI的O3人工智能模型的第一方和第三方基准结果存在显着差异,这引起了人们对透明度和模型测试技能的怀疑。去年12月,Openai宣布在过度挑战的Frontiemath的数学问题中正确回答了多余的问题。该标记在竞争对手中较早 - 第二排名模型只能回答大约2%的前提问题。 OpenAI首席研究官Mark Chen在实时广播中说:“市场上的所有其他产品目前在Frontiermath中不到2%,在我们的内部试验中,通过积极的测试时间计算设置,我们的校正率将超过25%。”但是,高分似乎是一个上限,它是由O3模型的更强版本实现的,而不是上周OpenAI向公众发布的版本。经营Frontiermath的Epoch Institute发布了独立T基准测试结果在周五的O3模型中发现,O3仅为10%,低于OpenAI先前声称的最高分数。这并不意味着Openai的谎言,该公司还包括一个较低的标记,该标记与12月发布的基准结果期间相匹配的测试结果。 Epoch还指出,其测试设置可能在OpenAI中有所不同,其评论使用了较新的Frontiermath。 “我们在OpenAI的结果上的差异可能是因为OpenAI使用了摩根式计算框架进行内部检查,在测试时间期间进行了更多的测试来源,或者这些结果在Frontiemath的不同子集上运行(例如,2024年11月26日的180个问题,2024年11月26日的问题,与2月28日的私人版本相比,该版本的模型是X.28,2025的290个。为了使用聊天/产品”,进一步确认了时期报告。 Benchmark.p实现OpenAi测试策展rmance,这在某些方面不再是一个关键问题。此外,OpenAI计划在未来几周内推出O3,O3-Pro的更强版本。但是,这件事提醒人们最好不要接受AI基准结果,尤其是如果结果来自一家需要出售产品的公司。随着人工智能行业的竞争加剧,供应商渴望通过引入新模型来吸引市场的关注和份额,基准的“争议”变得司空见惯。他在今年1月指出,Epoch因透露Openai宣布O3的揭示获得了OpenAI的经济支持而受到批评。许多为Frontiemath做出贡献的学者都不知道Open对公众的参与。最近,埃隆·马斯克(Elon Musk)的Xai被指控为最新人工智能模型(Grok 3)发布误导性的基准图表。在基准标记上宣布的不符合给开发人员的版本。