
撰文丨王聪
裁剪丨王多鱼
排版丨水成文
2025 年 1 月 20 日,中国杭州的初创公司深度求索(DeepSeek)发布了一款大言语模子(LLM)——DeepSeek-R1,这是一个部分开源(训导数据未公开,因此并非总计开源)的“推理”模子,其大概以与OpenAI于 2024 年年底发布的起初进的专注于“推理”的大言语模子ChatGPT-o1邻近的水平惩处一些科知识题。
更贫寒的是,DeepSeek-R1 的训导资本远低于好意思国科技巨头们设立的主流大言语模子,DeepSeek-R1 的高性能与超低资本引起了全寰宇科学界的咋舌。
2025 年 1 月 28 日,意大利那不勒斯第二大学的商议东说念主员在预印本平台medRxiv上发表了题为:Comparative Evaluation of Advanced AI Reasoning Models in Pediatric Clinical Decision Support: ChatGPT o1 vs. DeepSeek-R1 的论文。
商议团队在儿科临床决策补助中比拟评估了两款 AI 推理模子:ChatGPT o1vs.DeepSeek-R1。评估扫尾表示,ChatGPT o1的准确率胜过DeepSeek-R1(92.8% vs 87.0%)。
ChatGPT o1所使用的“想维链”(CoT)推理时代使得到复愈加结构化和可靠,镌汰了出错的风险。DeepSeek-R1天然回复正确率稍低,但因其开源的脾气以及新兴的自我反想才智,展现出了更出色的可及性情切应性。

吸收先进的推理模子,举例ChatGPT o1和DeepSeek-R1,在临床决策补助方面迈出了要津一步,尤其是在儿科边界。
ChatGPT o1 吸收“想维链”(Chain-of-Thought,CoT)推理来增强结构化问题的惩处才智,该模子的探访是通过每月付费订阅获得的,每周截止 50 条音讯;而 DeepSeek-R1 则通过“强化学习”(Reinforcement Learning,RL)引入了自我反想才智,该模子是免费开源的,每天截止 50 条音讯。
该商议旨在诈欺MedQA数据集评估ChatGPT o1和DeepSeek-R1这两款推理模子在儿考场景中的会诊准确性和临床实用性。
商议团队从 MedQA 数据聚拢选取了 500 说念儿科边界选拔题,并将其呈现 ChatGPT o1 和 DeepSeek-R1。每说念选拔题齐包含四个或更多的选项,其中惟有一个是正确谜底。
商议团队在调治条目下对 ChatGPT o1 和 DeepSeek-R1 进行了评估,评估方针包括回复的准确率、科恩卡帕通盘和卡方窥伺,以评估一致性及统计权贵性。通过对谜底的分析,深信这两款推理模子在解答临床问题方面的灵验性。
扫尾表示,在 500 说念问题中,ChatGPT o1 回复正确了 464 说念,准确率为92.8%;DeepSeek-R1 回复正确了 435 说念,准确率为87.0%。有 413 说念题 ChatGPT o1 和 DeepSeek-R1 均回复正确,有 14 说念题二者均回复造作,有 51 说念题 DeepSeek-R1 回复造作而 ChatGPT o1 回复正确,有 22 说念题 DeepSeek-R1 回复正确而 ChatGPT o1 回复造作。


ChatGPT o1 与 DeepSeek-R1 模子之间的比拟分析,突显了它们在性能和贪图原则上的各别,它们在准确率方针和临床应用后劲方面展现出不同。
ChatGPT o1 模子以 92.8% 的正确率后发先至,高于 DeepSeek-R1 的 87.0%,这标明 ChatGPT o1 在提供正确谜底方面更具可靠性。这一特色使得 ChatGPT o1 在临床环境中荒谬适用,尤其是在会诊造作需降至最低的情况下。举例,在处理有败血症迹象的更生儿等危险情况时,AG百家乐计划ChatGPT o1 大概提供更可靠的谜底,从而镌汰严重临床后果的风险。这一扫尾可能归因于其吸收了“想维链”(CoT)推理时代,该时代使模子大概通过将复杂问题解析为连气儿尺度来惩处,从而增强结构化推理才智。
关联词,ChatGPT o1 的可及性受到权贵的实质截止,它需要付费订阅,且每周仅允许 50 条音讯,这可能会成为其应用的扼制。在资源有限的环境中,尤其是在密集的教学活动或等闲的临床模拟时期,这种情况尤为彰着。
DeepSeek-R1 天然准确率略低,但由于其开源的脾气,成为了一种易于获取且调动的惩处决议。这一特色使其在资源有限的医疗环境中或需要免费且纯真器用的学术姿色中荒谬有用。DeepSeek-R1 在预训导阶段吸收了基于“强化学习”(RL)的要领,使模子大概在不依赖传统监督预训导的情况下发展出高等推理才智。DeepSeek-R1 的一个权贵特色是其正在酿成的自我反想才智(即自我进化),通过这种才智,模子大概自主考据并优化其逻辑尺度,从而在复杂任务上擢升性能。这一才智在诸如“关于疑似病毒性脑炎的儿童,接下来的照顾尺度是什么?”这类需要多档次分析的复杂查询中可能荒谬有用。
科恩卡帕通盘(K = 0.20)标明,这些模子之间的一致性较低,反馈出它们各自特有的推理计谋。该通盘在 -1到1 之间,-1 代表总计不一致性,0 代表连忙一致性,1 代表统调治致性。
从时代角度来看,这两个模子各有特色:ChatGPT o1 通过实行“想维链”(CoT)推理等高等时代来最大化结构化推理,使其荒谬妥当复杂的临床环境。而 DeepSeek-R1 则以纯真性和免费可用为特色,使其在资源有限的场景中更具可及性。
终末,论文作家默示,这项商议突显了ChatGPT o1在提供准确和连贯的临床推理方面具有上风,使其高度适用于儿科危险情况。而DeepSeek-R1凭借其纯真性和可及性,在资源有限的环境中照旧一个珍重的器用。将这两款模子组合成一个集成系统,不错诈欺它们的互补上风,优化不同临床情境下的决策补助,举例,将复杂和高风险病例的分析交给 ChatGPT o1,而将 DeepSeek 用于成功回复问题和处理叠加性经过,从而确保合座效果更高。此外,有必要开展进一步商议,以探索它们在多学科医疗团队中的整合,以及在确切寰宇临床环境中的应用 。
论文聚首:
https://www.medrxiv.org/content/10.1101/2025.01.27.25321169v1
