DAV:达摩院猫头鹰 mPLUG-Owl 亮相：模块化多模态大模型，追赶 GPT-4 多模态能力_MaticVerse

作者：

时间：

来源：机器之心

纯文本大模型方兴未艾，多模态领域也开始涌现出多模态大模型工作，地表最强的GPT-4具备读图的多模态能力，但是迟迟未向公众开放体验，于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4和LLaVA问世不久，阿里达摩院便推出mPLUG-Owl，一个基于模块化实现的多模态大模型。

今天要介绍的是mPLUG-Owl，该工作不仅通过大量cases展示出优秀的多模态能力，还第一次针对视觉相关的指令理解提出一个全?的测试集OwlEval，通过人工评测对比了已有模型，包括LLaVA、MiniGPT-4、BLIP-2以及系统类MM-REACT等工作，实验结果表明mPLUG-Owl展示出更优的多模态能力，尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方?表现突出

金色午报 | 8月7日午间重要动态一览:7:00-12:00关键词：SEC、ETC Core、BCH开发者、泰达

1. SEC文件表明上季度已有超20家机构投资灰度比特币信托；

2. ETC Core：矿工需注意只使用Core-geth客户端；

3. 多位BCH开发者联合声明将于11月15日升级实施ASERT DAA算法；

4. 泰达预增发5亿枚ERC20 USDT 或将进行USDT切换；

5. 京东数字科技控股股份有限公司申请区块链发明专利；

6. 法官裁定推特黑客事件策划者Graham Clark的保释金仍为75万美元；

7. Bitcoin ABC首席开发者：同意实施“aserti3-2d”难度调整提案；

8. LINK短线突破10美元再创历史新高；

9. EOSIO测试网正在运行EOSIOv2.0.7版本。[2020/8/7]

分析 | 金色盘面：FGI恐慌指数 19:金色盘面综合分析：FGI恐慌指数8月29日显示为19，较前一日略有回升，市场整体依然处在恐慌中，市场导向波动较大，投资者应该提高风险控制意识。[2018/8/29]

论文链接：https://arxiv.org/abs/2304.14178

代码链接：https://github.com/X-PLUG/mPLUG-Owl

ModelScope体验地址：

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace体验地址：

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模态能力展示

我们把mPLUG-Owl与现有工作进行对比来感受一下mPLUG-Owl的多模态效果，值得一提的是，该工作中评比的测试样例基本上都来自已有工作，避免了cherrypick问题。

金色财经现场报道哈希投行创始人叶京：区块链技术必然在后互联网时代扮演重要角色:金色财经现场报道，在“2018联盟链的未来暨瑞链科技区块链产品发布会”上，哈希投行叶京进行现场致辞，他指出：后互联网时代，区块链技术必然扮演重要角色。区块链的热度有目共睹，巨头和媒体纷纷入场抢占先机。哈希投行作为区块链的综合投行，已经完成了媒体、社群、投行、区块链研究院的布局，不论从全国或者全球看来，区块链技术都处于早期发展解决，需要我们共同维护、发展创新。[2018/5/31]

下图6展示了mPLUG-Owl很强的多轮对话能力。

从图7中可以发现，?mPLUG-Owl具有很强的推理能力。

辟谣！网传金色财经官方微博发布利空消息为不实信息:今日，网络上流传有人通过软件来制作假的金色财经官方微博消息图片，冒充金色财经散布不实信息，吸引人们眼球。金色财经在此声明，金色财经作为区块链行业第一媒体，始终秉持着媒体的原则，以快速、全面、专业的精神为区块链从业者、用户传递行业信息，请用户不要盲目相信网络传言，注意规避风险。

同时我们不排除将要追究此次恶意诽谤金色财经的策划人的法律责任，以正视听。[2018/1/15]

如图9展示了一些笑话解释例?。

在该工作中，除了评测对比外，该研究团队还观察到mPLUG-Owl初显一些意想不到的能力，比如多图关联、多语?、文字识别和文档理解等能力。

如图10所示，虽然在训练阶段并没有进行多图关联数据的训练，mPLUG-Owl展现出了一定的多图关联能力。

金色财经讯:北京时间18日早间CNBC称，中亚国家哈萨克斯坦希望进入加密货币市场，推出自己的得到官方支持的数字货币。[2017/10/19]

如图11所示，尽管mPLUG-Owl在训练阶段仅使用了英文数据，但其展现出了有趣的多语?能力。这可能是因为mPLUG-Owl中的语?模型使用了LLaMA，从而出现了这一现象。

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练，但其仍然展现出了一定的文字识别和文档理解能力，测试结果如图12所示。

方法介绍

该工作提出的mPLUG-Owl，其整体架构如图2所示。

模型结构：它由视觉基础模块(开源的ViT-L)、视觉抽象模块以及预训练语?模型(LLaMA-7B)组成。视觉抽象模块将较?的、细粒度的图像特征概括为少量可学习的Token，从而实现对视觉信息的?效建模。?成的视觉Token与文本查询一起输?到语?模型中，以?成相应的回复。

模型训练：采用两阶段的训练方式

第一阶段：主要目的也是先学习视觉和语?模态间的对?。不同于先前的工作，?mPLUG-Owl提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。?因此mPLUG-Owl在第一阶段只冻住LLM的参数，采用LAION-400M，?COYO-700M，?CC以及MSCOCO训练视觉基础模块和视觉摘要模块。

第?阶段：延续mPLUG和mPLUG-2中不同模态混合训练对彼此有收益的发现，Owl在第?阶段的指令微调训练中也同时采用了纯文本的指令数据(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模态的指令数据(150kfromLLaVA)。作者通过详细的消融实验验证了引?纯文本指令微调在指令理解等方?带来的收益。第?阶段中视觉基础模块、视觉摘要模块和原始LLM的参数都被冻住，参考LoRA，只在LLM引?少量参数的adapter结构用于指令微调。

实验结果

SOTA对比

为了比较不同模型的多模态能力，该工作构建一个多模态指令评测集OwlEval。由于?前并没有合适的自动化指标，参考Self-Intruct对模型的回复进行人工评测，打分规则为：A="正确且令人满意"；B="有一些不完美，但可以接受"；C="理解了指令但是回复存在明显错误"；D="完全不相关或不正确的回复"。

对比结果如下图3所示，实验证明Owl在视觉相关的指令回复任务上优于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多维度能力对比

多模态指令回复任务中牵扯到多种能力，例如指令理解、视觉理解、图?上文字理解以及推理等。为了细粒度地探究模型在不同能力上的?平，本文进一步定义了多模态场景中的6种主要的能力，并对OwlEval每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

结果如下表格6所示，在该部分实验，作者既进行了Owl的消融实验，验证了训练策略和多模态指令微调数据的有效性，也和上一个实验中表现最佳的baseline—MiniGPT4进行了对比，结果显示Owl在各个能力方?都优于MiniGPT4。

标签：ADA VERSE DAV CARD ada艾达币行情 MaticVerse PANDAVS价格 onekeyvisacard

前言早前,NFT领域最强IP缔造者YugaLabs官宣：将基于Ordinal协议在比特币区块链上推出NFT系列「TwelveFold」,为比特币NFT生态添加了催化剂.

COIN:Gitcoin 如何支持公共物品？_TCO

本文的话题是Gitcoin如何支持公共物品的发展。什么是Gitcoin？很多人可能会对Gitcoin有一些误解.

ITC:Adaverse年度总结与展望：面向希望，桥接亚非洲与Cardano生态_Bitcoin Latinum

Adaverse从2021年起就以非洲为起点开始谋篇布局,为面对2022年变动布局的行业演变,Adaverse进一步深耕并连接亚洲、非洲市场并逐步拓展到全球市场.

EPE:币圈“土狗”万倍狂欢：一面暴富一面归零_PEPEJON

在币圈,有一类奇葩的虚拟代币项目颇受追捧,人们通常叫它“土狗”。这些项目一般团队匿名,没啥技术含量,强调草根文化,甚至会明说“代币没有价值”.

MEME:探寻宗教式社区建设：Yuga Labs“猿”宇宙的案例解析_meme币官网

原文来源：欧科云链研究院原文作者：彭紫盈不可否认,传统的科技巨头在「下一代互联网」的豪中输得满盘皆落索,而加密货币生态圈的崛起则引领着这一时代的变革.

GPT:GPTDAO发起Twitter Space ，【AI老炮儿深挖AGI前世今生】_人工智能

将于美国西部时间2023年5月6日晚上8点举行。本次AMA活动将邀请AI领域的资深专家,深度剖析AGI技术的前世今生,探讨人工智能对我们的生活和未来的影响.

DAV:达摩院猫头鹰 mPLUG-Owl 亮相：模块化多模态大模型，追赶 GPT-4 多模态能力_MaticVerse

以太坊价格今日行情热门资讯