关闭广告

OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”

IT之家2025-08-28 12:00:01173人阅读

IT之家 8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。


Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

普京被指开出一系列停战条件:领土可以"以小换大"

上观新闻 浏览 191 08-19

大疆 Osmo Nano 运动相机抢先看:磁吸设计,药丸状机身

IT之家 浏览 141 09-11

天水二院被托管 市疾控中心主任担任院党委书记

澎湃新闻 浏览 4918 07-22

Scotto:步行者已经同意与54号秀泰隆-彼得签下双向合同

直播吧 浏览 3239 07-25

中美元首被指将在未来几月内会面 外交部回应

澎湃新闻 浏览 2688 07-22

行长代履职超期被罚50万后,山东这家城商行迎新帅、原任工会主席

湘财Plus 浏览 3271 08-13

辛辛那提“美网风向标”口号遭网友恶搞,新口号被称写实一夜爆火

网球之家 浏览 6968 08-13

吴镇宇携妻带娃度假 费曼却发老爸丑照

策略剖析 浏览 179 08-26

SpaceX:识别并切断缅甸电诈园区周边逾 2500 台“星链”设备

IT之家 浏览 26 10-23

阿维塔12四激光版上市 权益后25.99万元起售

网易汽车 浏览 0 10-30

小鹏是好起来了!传高管1.7亿香港买豪宅

说财猫 浏览 263 08-12

OpenAI给大学生做了个新外挂!ChatGPT一键变老师

爱范儿 浏览 2572 07-30

行星探测工程天问二号任务将发射 任务周期长达九年半

扬子晚报 浏览 9986 05-27

红旗版“大G”车展亮相!搭载四电机+三八差速锁,硬朗外观很霸气

小史谈车 浏览 140 09-04

男子索要股份被拒纠集他人入户抢劫致1死 被核准死刑

红星新闻 浏览 188 08-21

32岁,踢了6000分钟比赛的职业球员,生涯一共才踢了140多场

直播吧 浏览 9192 08-09

赫尔松州政府大楼被导弹击中 乌方公布遭袭瞬间视频

国际在线 浏览 7709 06-07

运-20A货舱对公众开放

环球网资讯 浏览 127 09-18

伊朗庆祝战胜以色列 此前被传阵亡的高级军官现身

红星新闻 浏览 719 06-26

好消息,来了!

博闻财经 浏览 44 10-18

对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题

爱范儿 浏览 58 10-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11