参考指南

IT之家 8 月 28 日消息，据外媒 Engadget 今日报道，OpenAI 和 Anthropic 共同宣布，同意评估彼此公开系统的安全对齐情况，并共享分析结果。总体来看，两家公司产品各有缺陷，也提供了改进未来安全测试的思路。

Anthropic 表示，它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用，以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示，OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致，但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外，其他测试模型在一定程度上都存在谄媚行为。

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能，旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道，OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀，面临首起不当死亡诉讼。

OpenAI、Anthropic互评：GPT存在谄媚行为，Claude不易出现幻觉”

云南玉溪连续...

让AI给人类...

Nature...

浙大突破：经...

茅台告别“躺...

开拓者官推：...

年报收官现金分红成估值重估重要变量

世上渣男千千万，最怕张丹峰这种？

获皮奥利称赞！小法回应：很感谢他，去年曾联系他并聊了两个小时

伊朗发起新一轮导弹袭击以色列多地有人员受伤

女子误触氢氟酸身亡事发地被围丈夫:砸钱没能救回她

怼球迷你能得到什么？KD：只有被攻击/嘲讽但我得提供这项服务

现代IONIQ 5 N DK版国内首秀：土屋圭市参与研发，全球限量50辆

“外卖大战”为何卷土重来，即时零售将走向何方？

提升大排量燃油车关税，维护贸易公平

14家理财公司8月规模增超2800亿，现金类占比创年内新低

亚泰助教：球队今天踢得不好，状态差可能是因为过于渴望胜利

坎比亚索：有人说尤文只能排意甲第四、第五，这种预测听听就好

76人新赛季不败金身被破，全胜球队仅剩马刺、雷霆和公牛

网友称从亚马逊法国买的RTX 5090被篡改：核心与显存模块不翼而飞

美图暴涨300%，风口还是虚火？

领导为什么不自己写材料？

《长安的荔枝》止步8亿，《煎饼侠》欠10年的债，大鹏没还完？

vivo Vision 探索版混合现实头显预热视频公布，今年不会公开销售

曼联名宿：C罗2021年该去曼城，他们制造机会的水平比曼联强多了

告别关税围城，中欧和解为国产电车赢得战略缓冲

郭富城追“子”成功，方媛孕肚被拍

特朗普下令立即重启美国核试验以应对其他国家核威胁

特朗普向印＂开火＂莫迪＂硬碰硬＂不愿让步让特朗普恼火

谁说每年都要穿新衣服？准备一些基础款，百搭耐看又不过时