国产之光DeepSeek V3竞技场排行极新出炉——ag百家乐三路实战
优于o1-mini(总榜第7),获最强开源模子认证(亦然唯独闯入前10的开源模子)。
单项上,在贫瘠领导、编程、数学,写稿等方面全面特出Claude 3.5 Sonnet。
不外,要是修复了作风适度,Claude 3.5 Sonnet在分解贫瘠领导方面如故要后来居上。
(作风适度:剔除模子通过长篇且时局精真金不怕火的修起来趋奉东说念主类偏好)
由此也激勉双方赞成者热烈的争论:
DeepSeek V3在实质编码中的确比Claude 3.5 Sonnet强吗?
带着同款酷好,量子位&网友实测这就送上。
实测DeepSeek V3和Sonnet 3.5
经典脑筋急转弯
第一关先来个开胃小菜,一说念佛典脑筋急转弯覆按模子分解才气。
小明的姆妈有三个孩子,老呐喊一明,老二叫二明,老三叫什么?
DeepSeek V3回答正确。它先明确了题目条目,然后逻辑满分找出了正确谜底(以致还有自我考证)。
比较之下,Claude 3.5 Sonnet既正确又纯粹。
天然,沟通到脑筋急转弯这种东西也受东西文化相反影响,咱们再来一说念。
why are people tired on April Fool’s Day? (为什么东说念主们在愚东说念主节很累?)
谜底一般是“Because they have just had a long March”。因为他们刚渡过了一个很长的三月(行军),March除了三月还有行军的兴致,这里实践对双关的分解。
好嘛,DeepSeek V3尽然歇菜了。从部分回答来看,它充足曲解了题目意图,一册正经地回答是因为东说念主们感到张皇、熬夜之类。
而Claude 3.5 Sonnet稳稳守住了主场,亦然轻无为松get了双关。
了然于目,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向汉文语境。
弱智吧逻辑陷坑+回转曲直
接下来难度升级,哄骗弱智吧经典陷坑来覆按模子逻辑才气。
台上一分钟,台下十年功,下载AG百家乐为何不在台上练功?
很好,DeepSeek V3又掉线了,精确踩进东说念主类陷坑。(正能量满满可还行)
不外别驰念,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。
看来靠近充满神思的弱智吧问题,二位选手齐不在现象。
Okk,不赓续在这上头为难二位了,底下来一说念正经八百的“回转曲直”(即知说念A是B却不知说念B是A)问题。
而两位选手齐一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的男儿是谁。
考研数学真题
底下干预数学才气测试。比如这说念考研数学真题,触及的常识点曲直面积分、高斯定理等内容:
告成上传截图,DeepSeek V3如故详备按步调度答,而况也作念对了。
而Claude 3.5 Sonnet诚然看起来步调更简便,但最终谜底失误,为山止篑。
编码才气
重头戏来了,最自后覆按一下模子编码才气。
刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub平鉴识用它俩创建网站。
翻开新闻客户端 培植3倍运动度博主在测试之后,合计DeepSeek V3充足胜出。
小结一下,从有限测试来看,DeepSeek V3貌似确乎能和Claude Sonnet 3.5打得有来有回。
满血版o1空降第一
BTW,跟着DeepSeek V3竞技场排行沿途变动的,还有OpenAI的o1模子。
推断是“双十二”时分持重上线的满血版o1,这次特出o1-preview 24分,空降总榜第一。
而况除了创意写稿,各个单项齐是第一。
是以,关于这几家,专家在使用历程中感受何如呢??
参考集中:
https://x.com/lmarena_ai/status/1873695386323566638
— 完 —ag百家乐三路实战