AG百家乐感觉被追杀苹果新 Siri 超等碗知识测试大翻车，准确率仅 34%

发布日期：2024-09-26 12:44 点击次数：144

IT之家 1 月 24 日音信，一项针对捏造助手 Siri（新版）的测试自大，其在回话超等碗历史有关问题时发扬很是厄运。测试效果标明，新版 Siri 在 58 届超等碗的冠军包摄问题中，仅正确回话了 20 次，准确率仅为 34%。

IT之家重视到，这次测试由 One Foot Tsunami 的 Paul Kafasis 研讨并实行。他逐个研究新版 Siri 从第一届到第六十届超等碗的冠军得主，并记载其回话。效果自大，新版 Siri 的发扬令东谈主失望，尤其是在某些问题上出现了昭着的额外。举例，新版 Siri 屡次额外地将 33 次超等碗冠军归于费城老鹰队，而实质上该队历史上仅获得过一次冠军。此外，新版 Siri 的回话中还出现了与问题无关的足球信息，以至在某些情况下提供了额外的超等碗届数信息。

尽管新版 Siri 如实给出了一些连气儿准确的谜底，举例正确回话了第五至第七届超等碗的冠军，但其在第十七届至第三十二届超等碗的问题上连气儿 15 次回话额外，突显了其的局限性。何况，当被问考中十六届超等碗时，新版 Siri 以至提议用户向 ChatGPT 寻求谜底，此后者则提供了正确谜底。这一双比进一步深刻了新版 Siri 与更先进的 AI 系统之间的差距。

测试在入手 iOS 18.2.1 并启用 Apple Intelligence 的成立上进行，同期在行将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了同样问题，标明这一问题在苹果多个平台上大批存在。Kafasis 已将测试效果整理成 Excel 和 PDF 才能的表格，供公众查阅。

受 Kafasis 测试的启发，Ag百家乐时间差Daring Fireball 的 John Gruber 也对新版 Siri 进行了同样的体育问题测试，并将其与 ChatGPT、Kagi、DuckDuckGo 和 Google 的发扬进行了对比。效果自大，其他 AI 系统均能正确回话问题，而新版 Siri 则屡屡答错。更厄运的是，Gruber 发现，旧版 Siri（即未启用 Apple Intelligence 的版块）在无法回话问题时，会提供一组网页运动，其中第一个运动时时能提供部分正确谜底。而新版 Siri（启用 Apple Intelligence 并集成 ChatGPT 功能后）的发扬却更差，不仅回话额外，何况每次尝试王人会给出不同的额外谜底。

Gruber 对此驳斥谈：“新版 Siri 的回话不仅扫数额外，何况看似合理，这是最厄运的额外花式。更令东谈主难以置信的是，Siri 在一个如斯受接待的主题上发扬得如斯愚蠢。”他还指出，新版 Siri 连一半的超等碗问题王人不可答对。

事实上，Siri 的举座发扬遥远以来一直备受诟病，Gruber 对其“看似合理但实质额外”的回话的品评，也反应了现时 AI 聊天机器东谈主在回话知识性问题时大批存在的“幻觉”问题 —— 即自信地提供误导性或扫数额外的谜底。

据悉，苹果正在拓荒一款基于先进大讲话模子（LLM）的更智能版 Siri，预测将使其不祥更好地与 ChatGPT 等聊天机器东谈主竞争。更智能版 Siri 可能救济抓续对话，并提供同样于 ChatGPT 或 Claude 的匡助和办法。预测苹果最早会在 2025 年的群众拓荒者大会（WWDC）上发布 LLM 版 Siri，但追究上线可能要比及几个月后。这意味着 LLM 版 Siri 将看成 iOS 19 的更新内容推出，iOS 19 预测在 2026 年春季追究上线。

上一篇：ag百家乐九游会华为鸿蒙迎来双喜：5.0.2 Beta 1版块来袭，PC也在路上！

下一篇：AG百家乐有什么窍门难怪金庸不敢写倚天续集，你看张无忌更名后叫啥？令狐冲谈之色变

热点资讯

推荐资讯