两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为什么有的领导仅凭一次聊天就能知道某些人不堪大用?
flutter为什么不用Go语言,而用Dart?
为什么炫夫狂魔蔡少芬那么招人喜欢,谢娜提张杰就遭人厌?
眼睛的飞蚊症,能够康复吗?
如何客观评价李小冉的长相?
如何看待多地开展查摆年轻干部玩心重、混日子、说话随意、口大气粗等问题的行动?
为什么这么久了还是没有主流软件开发鸿蒙版?
Vim 有什么奇技淫巧?
冬天也要穿胸罩吗?
公司老板不想续费3w一年的云服务器,合理吗?
为什么抖音上的姑娘都那么好看,现实中我怎么一个也见不着?
如何看待大量水库改名为湖?
PHP初学者,我能不能使用PHP来开发桌面应用?
如果全球都停止出口粮食,中国能否自给自足?
为什么男生都不喜欢173身高的女生啊?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
为什么越来越多的国内男孩,要娶国外女孩?
家里想搞一个服务器,怎么才不违规?
北京邮电大学和西安电子科技大学对比,实力如何?
特朗普大力推行稳定币,背后的真实目的是什么?
有哪一个瞬间让你对女朋友彻底失望?
张伟丽可以打败什么级别的普通男性?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
鱼缸哪里买比较便宜呢?
有哪些是你用上了mac才知道的事?
鱼缸有没有简单的过滤配置搭配方式?
Rust 和 Go 的并发模型有什么不同,为什说 Rust 的并发模型更好 ?(1.0已没有内建模型?
有邻居的追求者出价三万,让我连续半个月每天找个女朋友晚上弄点动静,我该答应吗?
Rust 是否会被美国国家安全局植入后门?