讨论了OpenAI OpenA O3基准标记，实际的测试分数少

作者：BET356官网在线登录 日期：2025/04/23 10:14 浏览：

Home 4月21日报告说，OpenAI的O3人工智能模型的第一方和第三方基准结果存在显着差异，这引起了人们对透明度和模型测试技能的怀疑。去年12月，Openai宣布在过度挑战的Frontiemath的数学问题中正确回答了多余的问题。该标记在竞争对手中较早 - 第二排名模型只能回答大约2％的前提问题。 OpenAI首席研究官Mark Chen在实时广播中说：“市场上的所有其他产品目前在Frontiermath中不到2％，在我们的内部试验中，通过积极的测试时间计算设置，我们的校正率将超过25％。”但是，高分似乎是一个上限，它是由O3模型的更强版本实现的，而不是上周OpenAI向公众发布的版本。经营Frontiermath的Epoch Institute发布了独立T基准测试结果在周五的O3模型中发现，O3仅为10％，低于OpenAI先前声称的最高分数。这并不意味着Openai的谎言，该公司还包括一个较低的标记，该标记与12月发布的基准结果期间相匹配的测试结果。 Epoch还指出，其测试设置可能在OpenAI中有所不同，其评论使用了较新的Frontiermath。 “我们在OpenAI的结果上的差异可能是因为OpenAI使用了摩根式计算框架进行内部检查，在测试时间期间进行了更多的测试来源，或者这些结果在Frontiemath的不同子集上运行（例如，2024年11月26日的180个问题，2024年11月26日的问题，与2月28日的私人版本相比，该版本的模型是X.28，2025的290个。为了使用聊天/产品”，进一步确认了时期报告。 Benchmark.p实现OpenAi测试策展rmance，这在某些方面不再是一个关键问题。此外，OpenAI计划在未来几周内推出O3，O3-Pro的更强版本。但是，这件事提醒人们最好不要接受AI基准结果，尤其是如果结果来自一家需要出售产品的公司。随着人工智能行业的竞争加剧，供应商渴望通过引入新模型来吸引市场的关注和份额，基准的“争议”变得司空见惯。他在今年1月指出，Epoch因透露Openai宣布O3的揭示获得了OpenAI的经济支持而受到批评。许多为Frontiemath做出贡献的学者都不知道Open对公众的参与。最近，埃隆·马斯克（Elon Musk）的Xai被指控为最新人工智能模型（Grok 3）发布误导性的基准图表。在基准标记上宣布的不符合给开发人员的版本。

新闻资讯

联系我们

讨论了OpenAI OpenA O3基准标记，实际的测试分数少