OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”

发布日期：2024-10-31

14 次

当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。

多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。

高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：020-2204 2442,邮箱：Sales@greentest.com.cn。

上一篇: 传OpenAI携手博通及台积电打造自研AI芯片
下一篇: 世芯电子宣布成功流片2nm测试芯片

为您精选

OpenAI自研AI芯片最快2026年推出,可能交由台积电来生产

7月22日消息，为了将低对外购AI芯片的依赖，传闻微软投资支持的生成式AI应用大厂OpenAI已经开始自行设计与生产相关芯片的计划···

更新日期：2024-07-22 453 次
我国首个开源桌面系统开放麒麟发布AIPC版本支持端侧大模型

7月9日消息，据openKylin（开放麒麟）官方消息，日前openKylin forAIPC版本重磅发布。官方介绍，在人工智能与异构计算技术迅···

更新日期：2024-07-10 218 次
三年后AI大模型训练成本或达1000亿美元

据Tom’s Hardware报道，AI新创公司Anthropic CEO Dario Amodei近日在Podcast节目《In Good Company》中表示，虽然AI大模型的···

更新日期：2024-07-10 314 次
2024 WAIC智能芯片及多模态大模型论坛

人工智能芯片研发及基础算力平台公司爱芯元智宣布，7月5日在2024世界人工智能大会上成功举办“芯领未来丨智能芯片及多模态大···

更新日期：2024-07-08 212 次
谷歌正式发布Gemini 1.5 Flash大模型，轻量化、响应速度极快

5月15日消息，今天凌晨，谷歌正式召开了I/O大会，宣布谷歌已全面进入Gemini时代。在一年前的I/O大会上，谷歌才首次发布Gemin···

更新日期：2024-05-15 253 次

最新文章

美对华芯片和AI投资限制升级涉及三大技术类别,明年1月2日生效

发布日期: 2024-10-31
谷歌目前超过1/4的新代码由人工智能生成

发布日期: 2024-10-31
Arm回应Intel和AMD史无前例联合挑战

发布日期: 2024-10-31
智源推出全能视觉生成模型OmniGen,支持文生图、图像编辑等

发布日期: 2024-10-31
商务部回应欧盟对华电动汽车反补贴调查终裁，不认同、不接受，已提出···

发布日期: 2024-10-31

关于绿测

广州绿测电子科技有限公司（简称：绿测科技）成立于2015年11月，是一家专注于耕耘测试与测量行业的技术开发公司。绿测科技以“工程师的测试管家”的理念向广大客户提供专业的管家服务。绿测科技的研发部及工厂设立于广州番禺区，随着公司业务的发展，先后在广西南宁、深圳、广州南沙、香港等地设立了机构。绿测科技经过深耕测试与测量领域多年，组建了一支经验丰富的团队，可为广大客户提供品质过硬的产品及测试技术服务等支持。

查看详情

应用解决方案

产品与服务

新闻资讯

绿测工场服务号

绿测科技订阅号

020-2204 2442

新闻资讯

行业资讯

OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”

为您精选

热门文章

信越化学为氮化镓外延生长带来了有···

锂离子电池电路负载共享设计总结，···

AMD 自适应计算助力攻克眼病筛查难···

日本最终还是对美屈服，宣布将管制···

Docker 赋能物联网：探索软件供应链···

中标价再创新低，储能还有多少“泡···

2023年全球动力电池装机量冠亚军，···

俄罗斯自主芯片严重受挫：超过50％···

最新文章

美对华芯片和AI投资限制升级涉及三大技术类别,明年1月2日生效

谷歌目前超过1/4的新代码由人工智能生成

Arm回应Intel和AMD史无前例联合挑战

智源推出全能视觉生成模型OmniGen,支持文生图、图像编辑等

商务部回应欧盟对华电动汽车反补贴调查终裁，不认同、不接受，已提出···

热门标签

在线客服

微信在线咨询

联系电话

咨询热线

销售咨询热线

公众号

微信扫一扫

回到顶部