如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-18 11:55:14

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
为什么美国大妈不喜欢聚在小区,当众议论「张家媳妇偷人,李家女儿傍大款」等社区绯闻,当消遣的乐子?

为什么美国大妈不喜欢聚在小区,当众议论「张家媳妇偷人,李家女儿傍大款」等社区绯闻,当消遣的乐子?

只要你牵条狗每天在小区里遛,看到人就笑笑打招呼,如果有人开着...

2025-06-27
挂面怎么会那么难吃?

挂面怎么会那么难吃?

你觉得挂面难吃,那就太棒了,证明你的人生很幸福。 我99年...

2025-06-27
苹果 Macmini 配什么显示器比较好呢?为什么呢?

苹果 Macmini 配什么显示器比较好呢?为什么呢?

预算不高一般正常的4K显示器就可以了,反正TypeC不支持反...

2025-06-27
为什么家里要用 NAS?家用 NAS 有哪些实际的、接地气的用途?

为什么家里要用 NAS?家用 NAS 有哪些实际的、接地气的用途?

前言:面对日常生活中手机、电脑、相机存储卡、移动硬盘、U盘、...

2025-06-27
你捡过最大的漏是什么?

你捡过最大的漏是什么?

两次都是房子,一次是2008年在长沙读研,宿舍四人间,两个人...

2025-06-27