当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
鱼缸有哪些寿命比较长的草推荐呢?
女人出去约会,是喜欢穿裙子还是裤子?
为什么这次以色列打伊朗,网上声讨的人少了,反而都是嘲笑调侃伊朗?
换过电池的苹果手机内部发现被加装了一个部件,有大佬知道这是干什么的吗?
PHP现在真的已经过时了吗?
腰椎间盘突出有多痛苦?
如何看待现在大多数男人都不谈恋爱了?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
公司规定所有接口都用 post 请求,这是为什么?
大冰为什么突然风评反转了?
字节引入Rust是否代表J***a的缺点Go也没解决?
家庭饮用水的质量,对全家健康影响有多大?
你捡过最大的漏是什么?
python与nodejs哪个性能高?
只能选一个,你选谁?
浪潮信息在国内服务器领域是否真的第一?
你为什么对kotlin失去好感?
单依纯和黄霄云谁颜值更高一点?
明星现实中真的很漂亮吗?
国内大厂现在用rust的多吗?
你从别人的旧硬盘里发现了什么有趣的东西?
用了几年大厂云服务器,现在想换便宜的,有推荐的吗?
30岁了,你在深圳过着什么样的生活?
普通家庭对孩子最好的托举是什么呢?
Rust开发Web后端效率如何?
降维打击是什么?
有什么单一功能的私有网盘?
中国人工资不高主要原因是人口太多吧?
为什么新流行的开源编辑器都在用Rust开发?
女孩子腿非常白是什么体验?