区块见闻 区块见闻
Ctrl+D收藏区块见闻

ETH:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_lbank交易所app下载

作者:

时间:

撰文:Tanya Malhotra

来源:Marktechpost

编译:DeFi 之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型(LLM)正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如 Pathways 语言模型(PaLM)、Chinchilla 等,在模仿人类方面也有很好的表现。

美股区块链概念股盘前普跌 Riot Blockchain跌7.4%:金色财经报道,美股区块链概念股盘前普跌,Riot Blockchain(RIOT.O)跌7.4%,Marathon Digital(MARA.O)跌5.1%,Coinbase(COIN.O)跌4.2%。[2023/5/8 14:49:58]

大型语言模型使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理(agent)通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

Multichain推出zkRouter并发布白皮书:1月13日,据官方消息,Multichain推出下一代技术革新产品zkRouter,并发布zkRouter白皮书。zkRouter是一个无信任、通用的跨链基础设施,其具有无信任依赖、链上轻计算、通用、低延迟、且无资产抵押的显著优势。作为Multichain最新的解决方案,zkRouter利用ZKP(零知识证明)技术安全高效地连接多个区块链网络并实现无缝互操作性。[2023/1/13 11:10:42]

ChatGPT 使用来自人类反馈的强化学习(RLHF),通过最小化偏差对模型进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

DeepNFTValue完成400万美元种子轮融资,Rockaway Blockchain Fund领投:7月9日消息,加密初创公司DeepNFTValue宣布完成400万美元种子轮融资,此轮融资由Rockaway BlockchainFund领投,1Confirmation和Cygni Capital等参投。DeepNFTValue通过机器学习技术为NFT提供公允价值估计,买家可以根据它来与销售价格进行比较。

该公司根据属性和交易记录已完成对CryptoPunkNFT系列的估值,未来计划对BAYC、CloneX、Azuki和ArtBlocks等NFT系列进行估值。( The Block)[2022/7/9 2:01:59]

动态 | Chatspin公司宣布放弃用加密货币作为支付形式:据btcmanager消息,在2018年12月6日,Chatspin公司宣布,由于比特币和其他币种今年大幅贬值,将放弃接受加密货币作为支付形式的计划。据悉,Chatspin,是一款直播视频流应用,是首批宣布支持加密货币的社交媒体平台之一。[2018/12/9]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被训练来估计产生反应的质量,而不仅仅是排名分数。

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠 SL 是不够的,RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示,RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励,而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用 SL 对模型进行微调,然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容,而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

标签:ETHBANBANK以太坊eth官网怎么进入lbank交易平台下载lbank交易所app下载sol币会是下一个以太坊吗

比特币行情热门资讯
NFT:反思 Blur 狂热:剔除文化而放大金融投机 Blur 是否把 NFT 带偏了?_HOT

来源:Aaron 推文编译:念青,ChainCatcher由于空投预期,Blur 的热度一直在持续.

POLY:一文盘点Polygon NFT生态系统:六大类别_Swiss NFT Fund

撰写: 100 y.eth编译:深潮 TechFlow最近,Polygon 的 NFT 生态系统正在蓬勃发展.

Polygon:Bankless:以太坊 Shapella 升级的潜在影响_ANK

撰文:Jack Inabinet经过漫长的 5 个月,以太坊的下一次重大网络升级已在眼前!9 月中旬,合并的成功实施意味着以太坊完成了期待已久的从工作量证明到权益证明的过渡.

GATE:墙倒众人推?加密行业正在抛弃 Silvergate_SILO币

本文来自 decrypt,原文作者:André BeganskiOdaily 星球日报译者: Moni3 月 2 日.

稳定币:稳定币”野猫“时代:DeFi协议纷纷发行稳定币会产生什么影响_VER

文/Ben Give,Bankless作者;译/金色财经xiaozou DeFi协议正在行动。 随着基于费用的商业模式的回报率下降和链上活动的枯竭,蓝筹DeFi协议正在寻求可替代的收入来源,以强.

WEB:盘点值得关注的Web3游戏 加密游戏的发展正在转变_web3域名值钱吗

游戏作为数字时代人们娱乐的最主要方式之一,正在创造极大的产值。据全球资讯公司 Bain 的调查研究显示,到 2025 年,游戏市场的价值将增长 50% 以上,超过 3000.