当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
王思聪的女朋友这么多,为什么都不结婚?
为什么都 2025 年了,还有那么多人宁可双持,也不愿意放弃安卓或非安卓手机?
凤凰传奇真的会因为曾毅而塌房吗?
为什么小米造车可以叫小米,而华为不可以用华为品牌造车?
如何设计一条 prompt 让 LLM 陷入死循环?
有哪些事情是MacOS做不到但Linux可以做到的?
如何评价小米 6 月 26 日发布的小米 YU7、MIX Flip2、REDMI K80 至尊版?
为什么安踏还不能和 Nike 相抗衡?
python与nodejs哪个性能高?
程序中提升几毫秒、节省几 kB 的内存有必要吗?
为什么长得漂亮却没什么用?
为什么用 electron 开发的桌面应用那么多?
为什么都认为无GC语言一定会比有GC语言要快?
如何评价最新发布的 vivo X Fold5,作为首款「三防」折叠屏手机,都有哪些亮点值得关注?
为什么Steam Deck能做好Windows游戏转译但是Apple Mac就做不好?
软件定制开发的价格为啥那么高?
Caddy 和 Nginx 比有哪些优点和缺点?
现在php还有前途吗?
B站充电专属***有被爬虫破解过吗?有无解析工具?
golang比j***a编码效率高太多,为什么各大厂还在继续用j***a而不是重构整个项目?
我想不通,类似东方树叶这种毫无技术也没什么添加剂的茶叶水,是怎么敢卖5块的???
韩国掀起打「增高针」风潮,增高针真的能增高吗?会对身体产生哪些影响?
小腿能粗到什么地步?
程序员看剧的时候,如果看到有敲代码页面,会暂停看代码吗?
lcd屏幕如此护眼,为什么现在没有了?
能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
电影《赤道》为何没有第二季呢?
duckdb的性能如何?
Windows的伟大之处在哪里?
iPad Pro 能否取代 Surface Pro?