• 百家乐AG真人 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet对比实测来了

  • 发布日期:2025-01-01 07:28    点击次数:130

    国产之光DeepSeek V3竞技场名次清新出炉——

    优于o1-mini(总榜第7),获最强开源模子认证(亦然独一闯入前10的开源模子)。

    单项上,在贫寒请示、编程、数学,写稿等方面全面稀薄Claude 3.5 Sonnet。

    不外,若是成就了格调死一火,Claude 3.5 Sonnet在厚实贫寒请示方面仍是要后起之秀。

    (格调死一火:剔除模子通过长篇且体式邃密的复兴来投合东说念主类偏好)

    由此也激励双方复旧者强烈的争论:

    DeepSeek V3在履行编码中确凿比Claude 3.5 Sonnet强吗?

    带着同款钦慕,量子位&网友实测这就送上。

    实测DeepSeek V3和Sonnet 3.5

    经典脑筋急转弯

    第一关先来个开胃小菜,一说念佛典脑筋急转弯覆按模子厚实才气。

    小明的姆妈有三个孩子,老高唱一明,老二叫二明,老三叫什么?

    DeepSeek V3回答正确。它先明确了题目条目,然后逻辑满分找出了正确谜底(致使还有自我考证)。

    比较之下,Claude 3.5 Sonnet既正确又爽朗。

    天然,斟酌到脑筋急转弯这种东西也受东西文化各异影响,咱们再来一说念。

    why are people tired on April Fool’s Day? (为什么东说念主们在愚东说念主节很累?)

    谜底一般是“Because they have just had a long March”。因为他们刚渡过了一个很长的三月(行军),March除了三月还有行军的道理,这里纯属对双关的厚实。

    好嘛,DeepSeek V3尽然歇菜了。从部分回答来看,它王人备扭曲了题目意图,一册正经地回答是因为东说念主们感到心焦、熬夜之类。

    而Claude 3.5 Sonnet稳稳守住了主场,亦然轻简陋松get了双关。

    了然于目,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向汉文语境。

    弱智吧逻辑罗网+回转哀痛

    接下来难度升级,足下弱智吧经典罗网来覆按模子逻辑才气。

    台上一分钟,台下十年功,ag真人多台百家乐的平台官网为何不在台上练功?

    很好,DeepSeek V3又掉线了,精确踩进东说念主类罗网。(正能量满满可还行)

    不外别系念,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

    看来靠近充满心计的弱智吧问题,二位选手都不在现象。

    Okk,不不竭在这上头为难二位了,底下来一说念正经八百的“回转哀痛”(即知说念A是B却不知说念B是A)问题。

    而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的女儿是谁。

    考研数学真题

    底下插足数学才气测试。比如这说念考研数学真题,波及的常识点吵嘴面积分、高斯定理等内容:

    平直上传截图,DeepSeek V3仍是驻扎按设施解答,何况也作念对了。

    而Claude 3.5 Sonnet诚然看起来步伐更浅易,但最终谜底不实,为山止篑。

    编码才气

    重头戏来了,最其后覆按一下模子编码才气。

    刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub等分辨用它俩创建网站。

    大开新闻客户端 进步3倍运动度

    博主在测试之后,合计DeepSeek V3王人备胜出。

    小结一下,从有限测试来看,DeepSeek V3貌似照实能和Claude Sonnet 3.5打得有来有回。

    满血版o1空降第一

    BTW,跟着DeepSeek V3竞技场名次总共变动的,还有OpenAI的o1模子。

    推测是“双十二”手艺肃穆上线的满血版o1,这次稀薄o1-preview 24分,空降总榜第一。

    何况除了创意写稿,各个单项都是第一。

    是以,关于这几家,民众在使用历程中感受奈何呢??

    参考相接:

    https://x.com/lmarena_ai/status/1873695386323566638

    — 完 —百家乐AG真人