头条| 投资热闻| 股票| 投资| 财经| 头条| 资讯| 热点| 教育|

当前位置 : 投资 > 聚焦 >

焦点快报!所有顶级AI模型准确率都突破不了70%?Google揭示行业真相

2025-12-12 16:00:40  投资界     参与评论()人

当你向ChatGPT询问一个事实性问题,或让Claude分析一张财务图表时,你可能会认为这些顶 级AI模型会给出准确答案。但Google刚刚发布的一项基准测试结果令人震惊:包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的所有主流AI模型,在事实准确性测试中的得分都无法突破70%。


(资料图片仅供参考)

换句话说,即使是最强大的AI,也有超过30%的概率给你错误信息。

2025年12月,Google的FACTS团队联合数据科学平台Kaggle正式发布了FACTS基准测试套件(FACTS Benchmark Suite),这是业界首 个系统性评估大语言模型"事实准确性"的综合框架。测试结果不仅让Gemini 3 Pro获得了第 一名的位置,更重要的是,它揭示了一个行业性难题:没有任何一个模型能够突破70%的准确率关口。

对于技术领 导者和企业决策者来说,这是一个明确的信号:AI的"信任但验证"时代远未结束。

为什么事实准确性如此重要?

市面上不乏各种AI基准测试——从代码编写能力到指令遵循,从网页浏览到工具使用。但这些测试都有一个共同的盲点:它们衡量的是AI完成特定任务的能力,而不是生成信息的准确性——特别是在处理图像、图表等多模态内容时,能否输出客观正确、与真实世界数据相符的信息。

对于法律、金融、医疗等准确性至关重要的行业来说,缺乏标准化的"事实准确性"评估方法一直是个关键盲区。律师需要确保案例引用准确,财务分析师需要确保数据解读无误,医生需要确保诊断建议可靠——但在FACTS测试发布之前,我们缺少一个统一的标准来衡量AI在这些场景下的表现。

FACTS测试填补了这一空白。相关研究论文将"事实准确性"细分为两个操作场景:

情境事实性(Contextual Factuality):基于提供的数据进行准确回答的能力

世界知识事实性(World Knowledge Factuality):从记忆或网络检索信息的准确性

FACTS测试:四大维度全面评估

FACTS测试不是简单的问答游戏,而是模拟了开发者在生产环境中会遇到的四种真实失败场景:

1. 参数基准测试(Parametric Benchmark):内部知识考核

测试内容:模型能否仅使用训练数据准确回答百科式问题?

这就像考学生的基础知识储备——“法国的首都是哪里?”"谁写了《1984》?"测试模型的内部记忆是否可靠。

2. 搜索基准测试(Search Benchmark):工具使用能力

测试内容:模型能否有效使用网络搜索工具检索并综合实时信息?

这是开卷考试——给模型配备搜索工具,看它会不会查资料、用资料,能否找到正确答案并准确引用。

3. 多模态基准测试(Multimodal Benchmark):视觉理解能力

测试内容:模型能否准确解读图表、图示和图像,而不产生幻觉?

这是"看图说话"测试——给AI一张财务图表、数据可视化或信息图,看它能否准确提取信息,而不是编造数据。

4. 落地基准测试 v2(Grounding Benchmark v2):上下文忠实度

测试内容:模型能否严格依据提供的源文本回答,不添油加醋?

这是阅读理解测试——给模型一段文字,看它会不会老老实实按原文回答,还是会自行发挥、编造信息。

测试规模:Google公开了3,513个测试样本,同时Kaggle保留了一个私有数据集以防止"应试训练污染"——这是基准测试中的常见问题,模型可能会针对已知测试题进行优化。

排行榜:毫厘之争背后的真相

初步测试结果显示,Gemini 3 Pro以68.8%的综合FACTS得分位居榜首,其次是Gemini 2.5 Pro(62.1%)和OpenAI的GPT-5(61.8%)。但深入数据,我们会发现工程团队真正的战场在哪里。

15 个领 先模型及其整体 FACTS 得分 数据来源:FACTS团队发布报告

三大关键发现:对开发者意味着什么?

发现一:没有模型突破70%大关

即使是排名第 一的Gemini 3 Pro,综合得分也仅为68.8%。这意味着在实际应用中,大约每3次AI输出就有1次可能包含错误信息。

对企业的影响:在关键业务场景中,必须建立人工审核机制。不要假设AI的回答是100%可靠的。

发现二:搜索能力远超内部记忆

对于构建RAG(检索增强生成)系统的开发者来说,搜索基准测试是最关键的指标。

数据显示,模型"找信息"的能力和"记住信息"的能力之间存在巨大差距。例如:

Gemini 3 Pro:搜索能力83.8% vs 内部知识76.4%(差距7.4个百分点)

GPT-5:搜索能力77.7% vs 内部知识68.8%(差距8.9个百分点)

结论:这验证了当前企业架构的标准做法——不要依赖模型的内部记忆获取关键事实。

如果你正在构建内部知识机器人,FACTS的结果明确表明:将模型连接到搜索工具或向量数据库不是可选项,而是将准确率推向可接受生产水平的唯 一途径。

发现三:多模态是重灾区

对产品经理来说,最令人警醒的数据点是多模态任务的表现。所有模型的得分都普遍偏低,即使是该类别的领 先者Gemini 2.5 Pro,也只达到46.9%的准确率。

测试任务包括阅读图表、解读图示、识别自然物体。准确率不到50%意味着多模态AI尚未准备好进行无人监督的数据提取。

底线:如果你的产品路线图包括让AI自动从发票中提取数据、或在没有人工审核的情况下解读财务图表,你很可能会在流程中引入显著的错误率。

为什么这对你的技术栈很重要?

FACTS基准测试很可能成为企业采购的标准参考点。在评估模型用于企业应用时,技术领 导者应该超越综合得分,深入到与具体用例匹配的子基准:

根据应用场景选择模型

构建客户支持机器人?→ 关注"上下文准确性"得分

确保机器人严格遵循你的政策文档,不自行发挥。

有趣发现:在这个维度上,Gemini 2.5 Pro(74.2%)实际上超过了Gemini 3 Pro(69.0%)。

构建研究助手?→ 优先考虑"搜索能力"得分

研究助手需要能够找到信息、综合信息,搜索能力是核心。Gemini 3 Pro(83.8%)和GPT-5(77.7%)在这方面表现最 佳。

构建图像分析工具?→ 极度谨慎行事

所有模型的多模态得分都不到50%,意味着错误率超过一半。必须配备人工审核机制。

行业影响:信任但验证的时代

正如FACTS团队在发布中指出的:“所有评估模型的整体准确率都低于70%,为未来进步留下了相当大的空间。”

对行业来说,信息很明确:模型正在变得更聪明,但它们还远未达到"绝 对可靠"的程度。在设计系统时,请假设大约三分之一的情况下,原始模型输出可能是错误的。

这不是对AI能力的否定,而是对现实的清醒认识。70%的准确率意味着AI已经可以大幅提升效率、辅助决策,但仍需要人类的监督和判断。

关键词:

相关报道: