区块见闻 区块见闻
Ctrl+D收藏区块见闻
首页 > 火必APP > 正文

LOCK:看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”_BLOC

作者:

时间:

来源:量子位

作者:萧箫

大模型们胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

dYdX官方提醒:尚未发币,用户需警惕相关局:2月9日消息,去中心化衍生品交易所dYdX官方推特表示,目前尚未发币,也没有进行预售或空投。用户需警惕相关局,比如dydxtokensale.com,不要向如下地址转账:0xe8C9A01879D22c72537DACF7ecd237409C55Bc75。[2021/2/9 19:18:19]

现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:

话题限定护栏、对话安全护栏和攻击防御护栏。

火币:警惕假币局,务必认准 TRC20-HT 官方合约地址:据官方消息,火币全球站已于9月18日在波场TRON网络中发行 TRC20-HT跨链资产(非增发式发行,此部分TRC20-HT将锚定等量ERC20资产,HT总量保持不变)。

同时有用户反馈,波场网络近期出现了一批假的HT合约地址和HT代币。为谨防用户上当受,火币提示用户,切勿轻易相信陌生人提供的代币地址,不要交易任何非官方合约地址的代币,请务必认准TRC20-HT官方合约地址:TDyvndWuvX5xTBwHPYJi7J3Yq8pq8yh62h

对伪造HT合约代币用于的行为,火币保留追究相关责任人法律责任的权利。其中部分假HT合约地址如下:[2020/9/23]

话题限定护栏,简单来说就是“防止大模型跑题”。

安全公司:警惕针对数字货币交易所用户的鱼叉式钓鱼攻击:近日,慢雾安全团队收到情报,有专业黑产团队针对交易所用户进行大规模邮件批量撒网钓鱼攻击。慢雾安全团队分析发现,攻击者针对macOS/Windows系统都给出了下载链接,执行文件后会有一系列恶意操作,如上传本地系统用户信息、窃取Electrum钱包中的敏感信息等。

针对这类钓鱼攻击,慢雾安全团队建议:1)认清官方邮箱后缀;2)谨慎对待未知来源邮件里的链接与附件;3)怀疑一切以“升级”、“账号异常”等理由的邮件;4)对于需要处理但可疑的邮件内容,需及时咨询专业人员。详情见原文链接。[2020/6/10]

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

分析 |BTC缩量反弹 短期警惕空头再次发力:根据Huobi交易平台数据显示,BTC最新成交价格 8675 美元,分析师Potter表示,如下图BTC日线,在BTC上周五晚间快速拉高至9000美元上方,随后又大幅暴跌至8000美元附近然后又拉回至8300美元,当日蜡烛线形成一个上下长插针阴柱形态,日线MACD也形成死叉状态,预计BTC后面一段时间大概率处于区间弱势整理状态,不过当时提示过BTC日线收盘若能站稳8200美元上方,盘整蓄势后还有继续上冲试探前高的可能,最近这三天一直处于小幅向上反弹走势,不足的是反弹量能持续萎缩,动能不足后续上涨持续性受限,币价今天最高反弹接近8800美元,依然属于量价背离的缩量上涨,并不是健康走势。从盘面上看,日线走势也处于上升楔形三角并沿布林带中轨小幅拉升,同时我们注意到一条比较关键的均线支撑EMA12,BTC从5月初温和放量站上EMA12截止目前一个多月时间,一直处于该均线上方震荡上行,期间几次向下插针刺穿该均线,不过K线实体部分均处于EMA12上方,表明该均线近一个月来对BTC走势有一定的支撑作用,后期在未放量跌破该均线之前,这轮的上涨趋势可能不会得到真正逆转。目前操作上关注8800至9000美元区间压力,短期若能再次站稳9000美元,后期的上涨空间继续打开,若放量跌破8500,将会带动其余主流梯队同步调整,在未择向突破之前,区间高抛低吸为主。[2019/6/3]

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范、消息和交互流。

首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

标签:BLOLOCKBLOCLOCBlockchain Store Tokenblockchain钱包中文版下载ABLOCK价格PLOCK

火必APP热门资讯
ION:警惕谷歌搜索廣告的區塊鏈騙局_LAI

背景 最近几周ScamSniffer陆续收到多个用户被搜索广告钓鱼的案例,他们都无一不例外错点了Google的搜索广告从而进入到恶意网站,并在使用中过程签署了恶意签名,最终导致钱包里的资产丢失.

ION:高中教师养出40亿美元超级独角兽 Stable Diffusion背后数据集创建者_LAIKA币

他本是一位普普通通的高中教师,却活生生养出一个估值40亿美元独角兽。而且方法也是非常的独特——打造了世界最大的免费开源数据集,却从未从中收取过一分钱,也婉拒了各类工作的邀请.

LOC:Block或将于2024年初推出自研比特币矿机_BLO

金色财经报道,Twitter创始人JackDorsey旗下金融科技支付公司Block最近从英特尔购买大量比特币挖矿芯片,加速其进入挖矿硬件市场的计划.

EFI:金色Web3.0日报 | 河南省首支元宇宙基金揭牌 总规模1.5亿元_NFTOPIA

DeFi数据 1、DeFi代币总市值:488.24亿美元 DeFi总市值及前十代币数据来源:coingecko2、过去24小时去中心化交易所的交易量18.

区块链:胡润百富发布“全球独角兽榜” 哪些区块链企业上榜了?_区块链最直白的解释

金色财经记者Jessy 4月18日,胡润百富发布了《全球独角兽榜》,列出了全球成立于2000年之后,价值10亿美元以上的非上市公司.

PEN:当年马斯克离开 OpenAI 的真相_OPEN

在ChatGPT?的影响下,目前?OpenAI?成为了全球最火爆的AI公司。然而回顾过去,它与马斯克之间的恩怨从创立之初就埋下了.