Anthropic推出一個功能被限制的Mythos模型新版本,該版本將被禁止執行網絡安全任務。路透
Anthropic推出一個功能被限制的Mythos模型新版本,該版本將被禁止執行網絡安全任務。數月前,該公司曾警告說,這款強大的AI模型能夠發現並利用重要軟體中的漏洞來執行網路攻擊任務,引發各界不安。
名為Claude Fable 5的新模型在周二(9日)推出,這是一款屬於Mythos等級的模型,將提供給企業客戶及付費訂閱者使用,它新增安全防護機制,能夠在網路安全、生物學等特定高風險領域阻止模型回應某些類型的提問。Anthropic表示,在這些情況下,其Claude聊天機器人將透過另一款名為Opus 4.8的模型來處理回應。
Anthropic研究部門產品管理主管潘恩表示:「對我們而言,這攸關我們所說的『向上競爭』,即能夠以有價值的方式提供這項技術,同時建立適當的安全護欄,讓它帶來的好處遠遠大於可能造成的傷害。」
此外,Anthropic也將發布同一款模型的另一個版本Mythos 5,但移除部分安全防護措施。這個版本將提供給能夠透過Project Glasswing資安合作計畫使用具備網路攻擊能力模型的組織。上周,Anthropic又新增了150家機構取得Mytho 的使用權,使總數增至約200家。
今年4月,Anthropic發表Mythos時,因其在辨識軟體安全漏洞方面表現出色而吸引了華爾街及政府官員的關注。該公司當時表示,並不打算讓這款模型全面開放使用,而是將其限制提供給少數企業,做為Project Glasswing網路安全計畫的一部分。
然而,隨著Anthropic朝首次公開發行股票(IPO)邁進,Mythos已成為其核心產品之一;如今推出Claude Fable 5,顯示該公司正邁向先前宣示的「最終目標」,即大規模部署 Mythos等級模型。
Anthropic表示,Claude Fable 5在軟體工程與知識工作任務方面展現出「卓越的表現」,在部分基準測試中,它的得分比上月底發布的另一款模型Claude Opus 4.8 高出超過10%。該公司說,在對新軟體進行測試時,支付處理公司Stripe成功在一天內完成一項大型軟體工程任務,大幅縮短原先若靠人工方式執行所需的兩個月時間。
此外,為了測試Fable 5的防護措施是否有效,Anthropic在內部開展了一項漏洞獎勵計畫,以尋找「越獄」該模型、或繞過其防護措施的方法。結果在超過1,000小時的測試中,測試人員沒有發現任何通用越獄方法。
2026/06/10 10:54
轉載自聯合新聞網: https://udn.com/news/story/6811/9557132?from=udn-ch1_breaknews-1-99-news




