区块见闻 区块见闻
Ctrl+D收藏区块见闻
首页 > PEPE币 > 正文

NFT:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_TSSEA币

作者:

时间:

撰文:TanyaMalhotra

来源:Marktechpost

编译:DeFi之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways语言模型、Chinchilla等,在模仿人类方面也有很好的表现。

Chair Finance已上线Polygon:去中心化的NFT权益交易平台Chair_Finance已上线Polygon,Polygon将授权Chair作为其战略合作伙伴,并以更低的gas费用为Chair NFT用户提供更灵活、更安全的交易环境。[2021/8/6 1:39:33]

大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。

dForce将接入Chainlink预言机,为借贷和合成资产协议提供价格数据:去中心化金融协议dForce宣布将在主网接入Chainlink预言机,为dForce的借贷及合成资产协议提供价格数据。Chainlink的去中心化价格预言机将为dForce多链借贷及合成资产协议提供价格参考数据喂价,以确保贷款及合成资产的铸币符合市场公允价格,并始终保持足额的抵押资产。dForce表示,Chainlink预言机的资产喂价服务将有效提高系统的安全性并确保数据的完整性,提供防API失效和防数据操控的高质量数据、安全的预言机服务,目前已被Aave、Synthetix等DeFi协议广泛接入应用。[2021/3/18 18:56:13]

ChatGPT使用来自人类反馈的强化学习,通过最小化偏差对模型进行微调。但为什么不是监督学习呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

动态 | 国际数字证券发行合作组织STOCOOP于韩国ChainPlus峰会上宣告启动成立:在韩国首尔举行的ChainPlus峰会上,国际数字证券发行合作组织 STOCOOP 在本次峰会专项议程中宣告正式启动成立工作。[2019/1/24]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF则被训练来估计产生反应的质量,而不仅仅是排名分数。

SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择SL的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠SL是不够的,RLHF对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示,RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励,而SL由于其文本段落级的损失函数而未能很好做到这一点。

像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用SL对模型进行微调,然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容,而RLHF阶段则完善模型的反应以提高准确性。

标签:NFTENSOPENSEABNFTFrens CoinOpen SesameTSSEA币

PEPE币热门资讯
区块链:Web3 中的“硬核”女性:她们创建了哪些项目?_区块链工程专业学什么女生好

整理:西昂翔、flowie、念青,ChainCatcher在今年的妇女节前夕,BCGX、波士顿咨询集团(BCG)以及PeopleofCrypto的一份新报告披露了一组挺扎心的数字:只有13%的W.

LVE:解密 Silvergate 与硅谷银行危机:一场美元加息周期下的豪_SILV价格

撰文:0xmin 美国中小银行接连暴雷! 3月8日,以加密货币友好著名的银行SilvergateBank宣布清盘,将所有存款退还客户.

OpenSea:NFT 市场之战:Blur vs OpenSea_opensea币价格

在之前的2021年末和2022年初的NFT牛市中,OpenSea几乎占据了市场主导地位,日交易量达数十亿美元.

ILV:硅谷最有名的银行崩了 币圈的蝴蝶终于引发了美国银行业的风暴?_Megatech MGT Token

一场巨大的公关失误。 昨夜,美国银行股全线崩盘,KBW银行指数收跌7.7%,创2020年6月以来最大日跌幅;硅谷第一大银行SVB重挫60%,市值一夜蒸发96亿美元,创1988年上市以来以来最大跌.

ERG:谷歌AI绘画4大牛携手创业 天使估值7个亿_AIG

图片来源:由无界版图AI工具生成最近的谷歌像个大漏勺,这不,又有AIGC核心成员联手跑路咯!量子位独家获悉,这回跟谷歌saybyebye的.

KEN:ChatGPT热潮之下 虚假新闻、算法歧视、信息泄露的法律风险你了解吗?_Park Star

文:赵志东蔡佳雯 2022年底,美国科技初创公司OpenAI发布的智能聊天工具ChatGPT一夜火爆.