百家乐AG点杀
百家乐AG真人 Nature:OpenAI的Deep Research对科学家有多大用处?
发布日期:2024-06-01 12:41:42 点击次数:51

继谷歌昨年 12 月发布 Gemini Deep Research 之后,ChatGPT 母公司 OpenAI 于日前推出了一款近似产物——“Deep Research”,该产物大概概括数百个网站的信息进而生成长达数页的引文说明,充任个东谈主智能助手,在短短几十分钟内完成颠倒于数小时的职责。

很多试用过它的科学家齐对它撰写文件综述或综述论文全文,致使找出常识空缺的身手印象久了。不外,也有一些东谈主的响应并不那么积极。在一段在线视频挑剔中,来自莫菲特菲尔德湾区环境磋磨所的数据科学家 Kyle Kabasares 就评价谈:“若是是东谈主类写的,我会以为,这还需要大量的矫正”。

OpenAI 和将此类产物的推出视为迈向大概处理复杂任务的 AI 智能体的一步。不雅察东谈主士也指出,Deep Research 之是以引东谈主细心,是因为它将 o3 诳言语模子(LLM)的矫正推理身手与互联网搜索身手调解在了系数。比较之下,谷歌的 Gemini Deep Research 刻下基于 Gemini 1.5 Pro,而非其朝上的推理模子 2.0 Flash Thinking。

综述撰写

关于 OpenAI 和谷歌的这两款产物,很多用户齐暗示印象久了。来自初创公司 FutureHouse 的化学家兼东谈主工智强者人 Andrew White 认为,谷歌的产物“真确浮现了谷歌在搜索和规画方面的上风”,能让用户快速了解某个主题,而 o3 的推理手段则为OpenAI 的产物所撰写的说明增添了精准性和复杂性,拓展了深度。

来自杰克逊推行室的免疫学家 Derya Unutmaz 暗示,他曾通过 OpenAI 提供的 ChatGPT Pro 免费造访权限进行医学磋磨。他认为 OpenAI 的 Deep Research 所撰写的说明“绝顶令东谈主印象久了”而况“值得相信”,“与已发表的综述论文不相高下,致使更好”。他评价谈:“我认为(东谈主工)撰写综述正在变得逾期”。

White 展望,此类 AI 产物异日不错用于更新东谈主类撰写的综述。毕竟,“每 6 个月齐由东谈主工更新一次泰斗综述不太可行”。

虽然,有不少东谈主警示到,通盘基于 LLM 的产物仍然存在不准确或有误导性的问题。OpenAI 也在其官网指出,其产物“仍处于早期阶段,存在局限性”——它可能会弄错引文、沾污事实、无法分袂泰斗信息和流言,也无法准确抒发其省略情味。OpenAI 展望,这些问题会跟着使用量增多和技巧推移而改善。谷歌为 Gemini Deep Research 出具的免责声明中也写谈:“Gemini 可能会出错,AG百家乐有规律吗请务必仔细检查”。

马克斯·普朗克光科学磋磨所东谈主工科学家推行室肃穆东谈主 Mario Krenn 指出,这些 AI 产物并不是在进行科学家常常道理道理上的“磋磨”。他暗示,科学家们会破耗数年技巧深入磋磨单一主题,并逐渐发展新的想想。“这种身手刻下尚未在 AI 上得到考据”。Krenn 补充谈:“也许很快就会达成,谁也无法料到这些天会发生什么”。

测试效果

OpenAI 对其产物进行了一系列测试。举例,在东谈主类的终末老师(Humanity's Last Exam,HLE)中, Deep Research 浮现出色。HLE 是一项 3000 谈题的基准测试,涵盖了从话语学到科学等各个学科的各人级常识,其盘算难度远高于刻下东谈主工智能所能胜任的其他常见测试(如 GPQA)。该测试涵盖了从话语学到科学等各个限度的各人级常识。在测试中,Deep Research 在 HLE 的纯文本问题上以 26.6% 的收货名列第一。

OpenAI 还针对 GAIA 基准进行了测试。GAIA 基准于 2023 年诞生,用于测试大概进行多步推理和网页浏览来去答问题的东谈主工智能。在公开的 GAIA 排名榜上,跨国公司 H2O.ai 的智能体位居榜首,该智能体由 Anthropic 的 Claude 3.5 Sonnet 提供维持,并在最高难度级别上得分 40.82%。而 OpenAI 的 Deep Research 得分为 58.03%。

相较于 OpenAI 的测试效果,谷歌则暗示,该公司刻下莫得可共享的基准测试效果。联系词,White 指出,OpenAI 选拔的基准测试仅针对谜底粗略、可考据的问题,可能并不适用于测试生成长篇且莫得固定回答的问题。“我认为这些基准测试最终会被功能性基准取代,”他说,举例通过东谈主工评估著作的质地和实用性。White 之前曾参与一项磋磨,其中东谈主类各人对 AI 生成和东谈主类撰写的维基百科格调科学主题摘抄进行了盲评,效果 AI 得胜。

这两款产物齐有一些局限性。它们齐无法索要付费信息,其中包括很多科学论文。这“是一个绝顶、绝顶紧要的问题,”维持绽放科学的 Unutmaz 暗示,“获得这些常识比以往任何技巧齐愈加要紧”。一些科学家在线论坛上建议,他们应该大概将我方的期刊密码输入 AI 器具,并预计不错运用 OpenAI 的新“operator”智能体来达成这极少。对此,OpenAI CEO Sam Altman 也在推特上酬金谈:“咱们如实需要找到一个惩办决议“。

翻译:陈小宇

原文作者:Nicola Jones(解放科学记者、作者和裁剪)

https://www.nature.com/articles/d41586-025-00377-9

友情链接: