IT之家 1 月 24 日音信,一项针对捏造助手 Siri(新版)的测试自大,其在回话超等碗历史有关问题时发扬很是厄运。测试效果标明,新版 Siri 在 58 届超等碗的冠军包摄问题中,仅正确回话了 20 次,准确率仅为 34%。
IT之家重视到,这次测试由 One Foot Tsunami 的 Paul Kafasis 研讨并实行。他逐个研究新版 Siri 从第一届到第六十届超等碗的冠军得主,并记载其回话。效果自大,新版 Siri 的发扬令东谈主失望,尤其是在某些问题上出现了昭着的额外。举例,新版 Siri 屡次额外地将 33 次超等碗冠军归于费城老鹰队,而实质上该队历史上仅获得过一次冠军。此外,新版 Siri 的回话中还出现了与问题无关的足球信息,以至在某些情况下提供了额外的超等碗届数信息。
尽管新版 Siri 如实给出了一些连气儿准确的谜底,举例正确回话了第五至第七届超等碗的冠军,但其在第十七届至第三十二届超等碗的问题上连气儿 15 次回话额外,突显了其的局限性。何况,当被问考中十六届超等碗时,新版 Siri 以至提议用户向 ChatGPT 寻求谜底,此后者则提供了正确谜底。这一双比进一步深刻了新版 Siri 与更先进的 AI 系统之间的差距。
测试在入手 iOS 18.2.1 并启用 Apple Intelligence 的成立上进行,同期在行将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了同样问题,标明这一问题在苹果多个平台上大批存在。Kafasis 已将测试效果整理成 Excel 和 PDF 才能的表格,供公众查阅。
受 Kafasis 测试的启发,Ag百家乐时间差Daring Fireball 的 John Gruber 也对新版 Siri 进行了同样的体育问题测试,并将其与 ChatGPT、Kagi、DuckDuckGo 和 Google 的发扬进行了对比。效果自大,其他 AI 系统均能正确回话问题,而新版 Siri 则屡屡答错。更厄运的是,Gruber 发现,旧版 Siri(即未启用 Apple Intelligence 的版块)在无法回话问题时,会提供一组网页运动,其中第一个运动时时能提供部分正确谜底。而新版 Siri(启用 Apple Intelligence 并集成 ChatGPT 功能后)的发扬却更差,不仅回话额外,何况每次尝试王人会给出不同的额外谜底。
Gruber 对此驳斥谈:“新版 Siri 的回话不仅扫数额外,何况看似合理,这是最厄运的额外花式。更令东谈主难以置信的是,Siri 在一个如斯受接待的主题上发扬得如斯愚蠢。”他还指出,新版 Siri 连一半的超等碗问题王人不可答对。
事实上,Siri 的举座发扬遥远以来一直备受诟病,Gruber 对其“看似合理但实质额外”的回话的品评,也反应了现时 AI 聊天机器东谈主在回话知识性问题时大批存在的“幻觉”问题 —— 即自信地提供误导性或扫数额外的谜底。
据悉,苹果正在拓荒一款基于先进大讲话模子(LLM)的更智能版 Siri,预测将使其不祥更好地与 ChatGPT 等聊天机器东谈主竞争。更智能版 Siri 可能救济抓续对话,并提供同样于 ChatGPT 或 Claude 的匡助和办法。预测苹果最早会在 2025 年的群众拓荒者大会(WWDC)上发布 LLM 版 Siri,但追究上线可能要比及几个月后。这意味着 LLM 版 Siri 将看成 iOS 19 的更新内容推出,iOS 19 预测在 2026 年春季追究上线。
热点资讯