如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-19 19:20:11

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
监管向“龙虾”亮剑,多家信托公司严堵网络安全漏洞不越红线_风险提示_行业_智能

监管向“龙虾”亮剑,多家信托公司严堵网络安全漏洞不越红线_风险提示_行业_智能

王鹏对《华夏时报》记者表示,信托机构的核心资产是“信任”与“数据”,管理层对“龙虾”的预警,本质上是针对AI智能体从“对话框”向“操作系统级权限”渗透带来的结构性风险防控。天使投资人、资深人工智能专家郭涛在…...

2026-03-14
我养了四只“龙虾”后,第一次感觉AI真能当员工了,但是……!_OpenClaw_用户_工作

我养了四只“龙虾”后,第一次感觉AI真能当员工了,但是……!_OpenClaw_用户_工作

我养了四只“龙虾”后,第一次感觉AI真能当员工了,但是……!_OpenClaw_用户_工作...

2026-03-12
AI开始倒反天罡了_人类_平台_ai

AI开始倒反天罡了_人类_平台_ai

现实中有大量需要线下执行任务、但又不想投入人力成本的企业,它们把业务外包给AI,AI再把任务拆解,雇佣人类完成。 不是AI需要人类,而是AI需要“能完成物理任务的标准化***”,人类目前是地球上这种***的唯一…...

2026-02-26
马斯克身边的男人快走光了_托比·波赫伦_Grok_吴宇怀

马斯克身边的男人快走光了_托比·波赫伦_Grok_吴宇怀

2月10日,xAI联合创始人吴宇怀宣布离职,吴宇怀出生于1995年,2015年满绩点毕业于加拿大纽布伦斯威克大学,2021年在多伦多大学师从“AI教父”杰弗里·辛顿获得博士学位,博士毕业后前往斯坦福大学完成…...

2026-02-28
携程两大元老双双谢幕_范敏_梁建章_季琦

携程两大元老双双谢幕_范敏_梁建章_季琦

梁建章懂技术,季琦擅长销售与市场,沈南鹏精通财务与资本,已经在旅游行业从业多年、手握众多***的范敏,则是为携程早期的业务开拓提供了诸多便利。 《财经天下》梳理携程过往财报发现,从2024年第一季度至今,携程的…...

2026-02-28