freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

思科研究发现DeepSeek R1极易受有害提示影响
2025-02-03 16:28:01
所属地 上海

中国初创公司DeepSeek因其推出具有先进推理能力和成本效益训练的大型语言模型(LLMs)而受到关注。其最新发布的DeepSeek R1-Zero和DeepSeek R1在性能上可与OpenAI的o1等领先模型相媲美,且成本仅为后者的一小部分,在数学、编码和科学推理等任务上表现优于Claude 3.5 Sonnet和ChatGPT-4o。

然而,思科旗下Robust Intelligence与宾夕法尼亚大学的最新研究揭示了DeepSeek R1的关键安全缺陷。研究人员合作调查了DeepSeek R1的安全性,评估成本不到50美元,采用了算法验证方法。

研究揭示DeepSeek R1的安全漏洞

研究团队使用自动越狱算法对DeepSeek R1、OpenAI的o1-preview和其他前沿模型进行了测试,应用了来自HarmBench数据集的50个提示。这些提示涵盖了六类有害行为,包括网络犯罪、虚假信息、非法活动和一般伤害。

他们的关键指标是攻击成功率(ASR),即引发有害响应的提示百分比。结果令人震惊:DeepSeek R1的攻击成功率为100%,未能阻止任何一个有害提示。这与其它领先模型形成鲜明对比,后者至少表现出一定程度的抵抗力。

值得注意的是,研究人员使用了温度为0的设置以确保可重复性,并通过自动化方法和人工监督验证了越狱。DeepSeek R1的100% ASR与o1形成鲜明对比,后者成功阻止了许多对抗性攻击。这表明DeepSeek R1在训练成本效益上取得了成就,但在安全性和安全性方面存在重大折衷。

image图片来源:思科Robust Intelligence

DeepSeek的AI开发策略与安全机制

DeepSeek的AI开发策略利用了三项核心原则:思维链提示、强化学习和蒸馏,这些原则增强了其LLMs的推理效率和自我评估推理过程。

根据思科的调查,这些策略虽然在成本效益上有所优势,但可能损害了模型的安全机制。与其它前沿模型相比,DeepSeek R1似乎缺乏有效的防护措施,使其极易受到算法越狱和潜在滥用的影响。

参考来源:

Cisco Finds DeepSeek R1 Highly Vulnerable to Harmful Prompts

# 数据安全
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录