关闭广告

OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”

IT之家2025-08-28 12:00:01451人阅读

IT之家 8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。


Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊朗发起新一轮导弹袭击 以色列多地有人员受伤

央视新闻客户端 浏览 7325 06-17

女子误触氢氟酸身亡事发地被围 丈夫:砸钱没能救回她

极目新闻 浏览 403 09-21

怼球迷你能得到什么?KD:只有被攻击/嘲讽 但我得提供这项服务

直播吧 浏览 475 08-12

现代IONIQ 5 N DK版国内首秀:土屋圭市参与研发,全球限量50辆

IT之家 浏览 361 09-21

“外卖大战”为何卷土重来,即时零售将走向何方?

澎湃新闻 浏览 6531 07-12

提升大排量燃油车关税,维护贸易公平

浏览 8007 07-14

14家理财公司8月规模增超2800亿,现金类占比创年内新低

券商中国 浏览 446 09-11

亚泰助教:球队今天踢得不好,状态差可能是因为过于渴望胜利

懂球帝 浏览 4289 07-28

坎比亚索:有人说尤文只能排意甲第四、第五,这种预测听听就好

直播吧 浏览 500 08-11

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 264 11-01

网友称从亚马逊法国买的RTX 5090被篡改:核心与显存模块不翼而飞

IT之家 浏览 6957 08-10

美图暴涨300%,风口还是虚火?

定焦One 浏览 10373 08-07

领导为什么不自己写材料?

识局 浏览 265 11-04

《长安的荔枝》止步8亿,《煎饼侠》欠10年的债,大鹏没还完?​

靠谱电影君 浏览 4755 08-03

vivo Vision 探索版混合现实头显预热视频公布,今年不会公开销售

IT之家 浏览 7887 08-13

曼联名宿:C罗2021年该去曼城,他们制造机会的水平比曼联强多了

直播吧 浏览 5973 07-24

告别关税围城,中欧和解为国产电车赢得战略缓冲

车市洞察 浏览 247 01-13

郭富城追“子”成功,方媛孕肚被拍

温读史 浏览 9990 07-09

特朗普下令立即重启美国核试验 以应对其他国家核威胁

中安在线 浏览 170 10-31

特朗普向印"开火" 莫迪"硬碰硬"不愿让步让特朗普恼火

第一财经资讯 浏览 3070 08-07

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

静儿时尚达人 浏览 41 05-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11