国产之光DeepSeek V3竞技场名次簇新出炉——
优于o1-mini(总榜第7),获最强开源模子认证(亦然独一闯入前10的开源模子)。
单项上,在贫瘠辅导、编程、数学,写稿等方面全面越过Claude 3.5 Sonnet。
不外,若是缔造了作风结果,Claude 3.5 Sonnet在瓦解贫瘠辅导方面还是要后发先至。
(作风结果:剔除模子通过长篇且体式精真金不怕火的回话来谄媚东说念主类偏好)
由此也激发双方维持者浓烈的争论:
DeepSeek V3在本色编码中简直比Claude 3.5 Sonnet强吗?
带着同款风趣,量子位&网友实测这就送上。
实测DeepSeek V3和Sonnet 3.5
经典脑筋急转弯
第一关先来个开胃小菜,一说念佛典脑筋急转弯检会模子瓦解才能。
小明的姆妈有三个孩子,老呐喊一明,老二叫二明,老三叫什么?
DeepSeek V3回答正确。它先明确了题目条目,然后逻辑满分找出了正确谜底(以致还有自我考证)。
比拟之下,Claude 3.5 Sonnet既正确又简易。
天然,磋议到脑筋急转弯这种东西也受东西文化相反影响,咱们再来一说念。
why are people tired on April Fool’s Day? (为什么东说念主们在愚东说念主节很累?)
谜底一般是“Because they have just had a long March”。因为他们刚渡过了一个很长的三月(行军),March除了三月还有行军的意思意思,这里考察对双关的瓦解。
好嘛,DeepSeek V3居然歇菜了。从部分回答来看,它十足歪曲了题目意图,一册正经地回答是因为东说念主们感到心焦、熬夜之类。
而Claude 3.5 Sonnet稳稳守住了主场,亦然轻遗弃松get了双关。
了然于目,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向汉文语境。
弱智吧逻辑罗网+回转吊问
接下来难度升级,哄骗弱智吧经典罗网来检会模子逻辑才能。
台上一分钟,台下十年功,ag百家乐两个平台对打可以吗为何不在台上练功?
很好,DeepSeek V3又掉线了,精确踩进东说念主类罗网。(正能量满满可还行)
不外别顾虑,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。
看来濒临充满心理的弱智吧问题,二位选手王人不在景况。
Okk,不继续在这上头为难二位了,底下来一说念正经八百的“回转吊问”(即知说念A是B却不知说念B是A)问题。
而两位选手王人一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的犬子是谁。
考研数学真题
底下参预数学才能测试。比如这说念考研数学真题,触及的常识点横暴面积分、高斯定理等内容:
获胜上传截图,DeepSeek V3还是详备按程序解答,而况也作念对了。
而Claude 3.5 Sonnet天然看起来轨范更浮浅,但最终谜底造作,为山止篑。
编码才能
重头戏来了,最自后检会一下模子编码才能。
刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub均分辨用它俩创建网站。
开放新闻客户端 造就3倍流通度博主在测试之后,以为DeepSeek V3十足胜出。
小结一下,从有限测试来看,DeepSeek V3貌似如实能和Claude Sonnet 3.5打得有来有回。
满血版o1空降第一
BTW,跟着DeepSeek V3竞技场名次全部变动的,还有OpenAI的o1模子。
揣测是“双十二”工夫矜重上线的满血版o1,这次越过o1-preview 24分,空降总榜第一。
而况除了创意写稿,各个单项王人是第一。
是以,关于这几家,大家在使用经由中感受怎么呢??
参考贯穿:
https://x.com/lmarena_ai/status/1873695386323566638
— 完 —下载AG百家乐