区块见闻 区块见闻
Ctrl+D收藏区块见闻

区块链:小牛思拓董事长兼CEO王会珍:数据标注助力知识获取_区块链工程专业学什么课程

作者:

时间:

1月10日,2021开源知识运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱SIG主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与,各位专家学者纷纷发表主题演讲,为开源知识运动做了不同角度的解读。

今天我们来分享东北大学计算机应用专业博士、小牛思拓(北京)科技有限公司,董事长兼CEO王会珍主题演讲《数据标注助力知识获取》,全文如下:

谢谢主持人的介绍,感谢Epik的邀请,很高兴参加今天的研讨会,今天我的演讲题目是数据标注助力知识获取,王昊奋老师提到了知识图谱的构建和审核,邢老师讲解了区块链的发展趋势,同时也提及了数据体系的构建融合,这种跨领域的数据的挖掘应用,包括知识体系的构建,实际上所有工作,我是认为都是离不开数据标注的。

小牛思拓已做了三年的数据标注服务了,今天跟大家分享这些年我们在数据标注方面的经验。

我是东北大学自然语言处理实验室的老师,实验室从80年开始做自然语言处理。我从硕士博士都是做ROP方向的,在做算法时,在研究方向上发现,基本上都是在少数例题做验证。但是2012年成立公司做产学研落地时,团队发现实际上小数据是很难进行落地的,比如说机器翻译。以小牛思拓的一个产品小牛翻译为例,当前可以支持304种语言的互译,而且翻译质量非常好,这得益于有中英两亿个聚对后台支撑,用深度学习的方法去训练机器翻译引擎。因此,在做算法或人工智能方法技术落地实践中,数据标注就显得更加重要。只有高质量的带标注的数据才能支撑算法学习。

江卓尔:现在的牛市越来越慢而长 更适合矿工挖矿:金色财经现场报道,8月22日,在成都举办的“全球区块链算力大会暨新基建矿业峰会”上,莱比特矿池创始人江卓尔做了主题为《如何在本轮牛市,不仅赚钱还赚币》的演讲。江卓尔表示,在币圈赚钱容易,但赚币比登天还难。以前大部分矿工赚钱赔币,算力涨的太快,挖不回币。但是现在时代变了,挖矿既赚钱又赚币,原因是现在的牛市越来越慢而长,慢牛更适合挖矿,另外矿机遭遇物理瓶颈。[2020/8/22]

什么是数据标注?

什么是数据标注?数据标注是小牛思拓的重要业务之一。公司一开始定位的是做文本的标注。在这个层面,其实大家对图像和声音的标注会更熟悉,比如人脸识别标注出来加在图片里;比如,在线会议可以直接同屏有字幕,这种可以由语音自动转换成文字的标注。

下面是文本标注的两个例子,其中一个是从一句话里面能标注出来实体,并要找到两个实体间的关系;另一个是智能语音对话形式很火,如发布一个问题,首先,我们要理解出来这个问题的意图是什么,这个问题还有很多种方法,不管是哪种方式去提问,我们都可以找到它对应的答案,所以这里面是我们一个问句复述的例子,给出一个问句,我们标注师要能够写出来十个句子,不同的说法,但是跟这个句子的问题都是一致的,这个是复述的例子。

接下来是从图像、声音、文字不同的处理对象,进行一些标注的样例,实际上最终的都是要有大量的人工去标注好的,或者是半人工标注好的带标数据来供机器训练和学习。

当前有几千家数据标注的公司比如京东百度等都有众包平台,通常都是群体智慧,包括区块链也是加入了很多的群体智慧。这就不得不提数据标注的重要角色—标注师,来了数据任务的时候,我们就需要给他进行任务分配,这是传统模式。

声音 | Coingeek创始人喊话比特币耶稣:现在该做正确的事:Coingeek创始人Calvin Ayre在推特说道,除非ABC再分叉或者颁布重新保护以进行永久分叉,否则事情还没完。随后,他喊话比特币耶稣,你也是制造混乱的一份子,现在该做正确的事。

Calvin Ayre表示,实际上, ABC的拥护者根本不应该发起这场哈希战争, ABC应该重新制定保护计划, 并且所有的交易所应该讲ABC除名,因为现在很明显, 这个混乱完全是他们造成的。[2018/12/7]

现在我们新的模式,在两方面进行处理,第一个,在任务层面,由于有ROP的技术,我们会做一些相似任务的训练分析,我们认为把相似的问题都给同样的一批人,会提高效率。另一方面,利用一些自动的技术,比如说我刚才提到的去做关系抽取,可以做出来一个关系抽取的模型,对数据进行预处理,然后我去用模型先预标注,预标注的结果再扔给标注师,他们在里面进行审核校正,就可以提高标注的效率。这个是我们从数据模型和人员方面进行的新模式尝试。

经过三年打磨,目前,我们团队已形成了完善的数据标注工作流程。当我们拿到任务需求时,我们需要与用户明确标注规范,去试标,用户认可标注的方案和报价,彼此达成一致则正式开始标注任务。

首先,我们会对标注师进行培训,因为每个数据标注任务都是不同的,都需要重新进行培训。

其次,培训合格后,开始实施任务。实施的过程中我们就会有各种的质量的监控,有去完善标注的规范,再培训。

再次,并非达成一致后就原封不动地按照客户给确认的规范执行,小牛团队与客户是强沟通关系,我们不断的从规范迭代更新,规范重新定义好以后,我们再培训,再质检,不合格的实时淘汰。

金色财经现场报道 易见区块刘天成:区块链现在缺少“中间层”人才 可解决供应链融资问题 :区块链教育创新论坛暨“区块链+”学程发布会上,易见天树科技CTO刘天成说,当前产业内缺乏既懂技术又懂业务的人。我们很容易招到程序员和业务人员,但是既懂业务又懂技术的“中间层”的人才很欠缺。区块链改变了现在供应链的规则,需要用区块链技术重新设计业务。在贸易供应链上区块链大有可为,如在“应账款融资”业务上,区块链可以统筹付款方的支付能力、贸易背景的真实性、融资方的还款意愿三个重要因素,因此解决了信任问题,很好地管控供应链的金融风险。[2018/4/21]

在标注的实施过程,我们有自己的标注工具,我们会有一些抽检和埋雷,及时的发现标注师哪块可能会存在质量的不合格风险。再后面还会有一些抽检,这是在标注过程中随时做得。在确认标注质量合格后会提交给客户,客户这边进行验收,最终结算,销毁数据。

当前也在考虑是否可通过采用区块链的技术保证数据的安全,我们现在的处理方式就是提交完客户以后,我们会把数据进行销毁,这个是现在整个的标注工作流程。

数据标注如何助力知识获取?

数据标注如何来助力知识获取呢?知识获取简单的说,就是我们要用机器获取知识,有广义的知识获取,如机器里通过不断的程序运行,不断的进行知识的积累,它能够自动的,像人有理解和举一反三的能力一样,不断的对这个知识进行扩充;同时也有狭义的是如我们一直在做得,包括我们知识图谱的人员也在做的一件事,通过程序和人机交互或者是很多的知识图谱的工具,通过专家或者是领域专家来去构建知识库的过程。

达拉斯小牛队老板:正考虑利用区块链进行门票销售:达拉斯小牛队老板、亿万富翁Mark Cuban在接受采访时透露,达拉斯小牛队正在考虑如何利用区块链进行门票销售和粉丝身份验证。据悉,小牛队是第二支开始接受比特币付款的NBA球队。(decrypt)[2021/3/1 18:04:59]

知识获取的本质就是从这种爆炸性的信息里,去甄别判断,来提取对我们有用的知识。数据标注就是知识获取的一个过程,举个例子,比如说你被蒙上眼睛,让你看到瓶里是空的还是盛满水,你会怎么做?一种方式是不用把面罩揭开,把手伸到桶里试一下,这个是一种尝试的方法,另外一种方式是我往里面扔一个东西,听听发出了什么样的声音,就能感觉到里面应该是有东西的,是一个推理的方式。还有一种,我也不用做什么,我就询问一下,向值得信任的人问:这个桶里是有水吗?对方告知有水,我相信他。

不同的知识的获取方法,实际上可以对应不同的标注类型。比如需要基于感知,把手伸进去判断是否有水,这是一个分类标注问题;基于推理的过程需要识别理解筛选归纳,可以对应到实体的标注;比如说我从一句话里面把人名地名结构名标注出来,这是实体的标注;在句子里看到内容进行推理判断,如这个到底是人名还是地名,这是阅读理解的标注;还有一个,信任,这个可以对应信息检索,我们养成了用搜索引擎的习惯,这个也是第三个标注的类别。

人们会问现在的技术这么发达了,当前的手段很先进,有爬虫和自动抽取自动分类,还需要标注吗?实际上我们可以靠爬虫对数据的来源关键词怎么得到的,爬取数据要怎么验证,刚才也提到了验证也有开源知识图谱审核的过程,怎么归类,怎么表示,还有自动抽取和分类之前的算法训练数据从哪来,这个是我们现在数据标注存在的非常重要的意义,能够去支撑前面的这些问题。

声音 | 长江商学院曹辉宁:今年小牛市会有真正的应用落地:长江商学院曹辉宁于直播专栏中谈到,区块链基金去年损失很大,随着市场回暖,很多传统基金进来准备在区块链技术做更多的投资。他认为今年小牛市会有真正的应用落地。Bitimes基金创始合伙人宫明强则表示,在传统金融过程中监督、合规、风控成本高昂。区块链由可信信息的传递来实现低成本信息交换,与传统金融是天然的结合,消除传统金融一些高成本弊端。他补充到,每出一个新概念,总会先被一群子,再被一群投资者利用,最后才能轮到一帮热爱它的人坚守。待行业洗尽铅华,轮到正规军出场。[2019/5/13]

数据标注是构建知识库必须的手段,也是知识获取的一个基础和保证,我可以人工标注的结果做算法训练,通过人工标注进行知识的校验。

如何进行数据标注?

今天想给大家分享的是从另一个角度来给大家介绍,一个是什么样的标注服务是专业的。标注的速度快,标注的质量好,这个就是专业吗?实际上我们觉得不完全是。专业的标注服务是什么样的呢?

首先服务前建立合理的标注体系;不是用户提了一个需求以后,就完全按照客户的需求或者是客户给的标注说明,原封不动的做这个数据标注,我们会在看数据的过程中会跟客户商量,不断的完善标注体系。

之前,我们做过上百个项目,发现实际上在最早建立标注规范的时候,客户并没有审查数据,因此在真实的数据场景里,这个标注规范会有千奇百怪覆盖不到的,为此,我们会跟客户一同构建标注体系。

其次,标注的原始数据;有一些客户给我们提供的带标的数据,其实里面会有一些问题,比如说会有重复的,数据标注是按条计费的,这对客户来说是损失,包括里面相似的句子比较多,或者说句子里面覆盖的领域或者行业不太充分,这些我们都会给客户进行一些建议。

再次,标注服务建立完善的流程,这个流程也非常重要,是质量的一个保证。

最后,为客户提供强有力的保障;如客户需要两天就出标注的结果,从理解规范培训,前面的整个一大套的流程,就需要两天完成;当然客户有各种各样的需求,因此要给用户提供一个强有力的保障,我们达到这四点,才认为数据标注是一个专业的。

事实上,不仅仅是服从和服务的过程,我们的标注团队还希望和客户构建一个深度信任的合作伙伴的关系,来共同做好这件事情,使得标注出来的数据有价值。

在数据标注过程中有以下几个环节构成,每个环节都在扮演不同的角色,比如标注师、标注规范、标注系统等等。

有人会问,什么样的标注师是好的?标注师的学历分布,背景,这个虽然重要,但不是最重要的。公司里面有300多个比较稳定的兼职标注师。这是我们从两三千人里经过培训做任务筛选下来的。专业的标注师一定是热爱标注行业,同时充分理解用户需求。

标注流程,标注流程不是固定的,它会根据客户的或者我们的任务场景需求不断的去变化,如果比较繁杂的数据,我们可能会先给他一个聚类的环节,给他聚成堆,比如军事领域聚在一起,有一些标注人员比较擅长理解这个领域的这些数据,我们就给他分配这样的标注师。比如说项目进度比较紧张,像刚才那么一大堆的流程,可能至少有一周的时间,我们需要根据客户的需求来简化流程,保障进度。

除此之外,标注规范也是比较一个需要关注的节点。这是一个必须要经过反复验证的过程,之前客户给我们一个规范半页纸,在我们做完的时候标注规范已经写了三十多页了。因此标注规范是标注过程中不断去完善的。标注规范要保证它的全面,也要保证标注效果。

还有一个就是标注规范的呈现形式,客户给我们的往往都是实际上是技术人员写的,比如说算法工程师写的,如果让不懂算法的人去看的时候,就会非常的麻烦,所以我们在里面还会有一个过程,就是原始规范的改写,我们会把标注规范呈现的方式,让标注师更容易理解。因此,在整个标注服务过程中,我们专业的标注规范,要有明确的标注内容,标注时候的规律,基本的处理原则,还有一些注意事项,所以这些都要在规范里把它都表述的非常清楚,而且要用通俗易懂的语言来描述出来。

接着是标注系统,知识图谱构建的工具,我们这个标注系统实际上之前也开放过。标注系统可以完成各种标注任务的,当前标注系统支持图象的二倍拉框,语音转文字的标注,还有文本方面的标注,如实体的标注,关系标注,事件的标注,包括分类,类型的标注,问句的意图标注,包括对话的生成等等。

标注系统实际上是为了提高我们标注效率的,这个系统的构建实际上就是需要减少标注人员在系统外的操作,会根据任务在标注系统里嵌很多,比如嵌入搜索结果,从百度搜索还有各种搜索引擎的结果,帮助标注师去理解概念,提高标注的效率和一致性,这些都会在标注系统里进行考虑。

标注过程一定是不断的反馈更新培训和淘汰的过程,单纯的一次质检是保证不了质量的,所以在整个的标注服务过程中,构建了四重机制,比如说质量的把控,抽检,埋雷,多人标注,数据安全的机制,应急的预案,包括人员预留,突发事故的应急组等等,另外,我们还会有一些考虑,包括过程的控制,比如说规范的适用性,规范的确认改写,包括培训测试,包括状态项目进度的监控,包括反馈机制,包括实施过程等方面,总之,通过各种机制,我们来保证标注的质量。

EpiK?Protocol?铭识协议

EpiKProtocol致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术、去中心化自治组织和通证经济模型,组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。

通证名称:EPK

EPIK官网?:

https://www.epik-protocol.io/

EPIK白皮书?:

https://www.epik-protocol.io/EPIK-whitepaper-cn.pdf

EPIK经济白皮书:

https://www.epik-protocol.io/EPIK-whitepaper-economy-cn.pdf

EPIKGitHub:

https://github.com/EpiK-Protocol

EPIK电报群:

https://t.me/EpikProtocol

来源:金色财经

标签:区块链EPIKTPSBIKI区块链工程专业学什么课程EPIK币https://etherscan.iobiking网络词

火币网下载官方app热门资讯
SDT:泽熙洲:1.16-1.17黄金白银td下周走势操作建议_BTCVB

     国际黄金走势分析:黄金上周窄幅震荡,最高1864附近,最低到了1817位置,整周波幅仅有46美金,而且都是在周一完成,后面整周都在围绕周一的窄幅区间运动.

BIKI:止盈提醒:程博说币:1-17比特币多空布局 完美斩获2843个点位_dydx币升值潜力

合约可以把握上涨,也可以把握下跌行情,来回拿利就是合约的优势。我听到很多朋友在高位追了涨,在低位的时候开了空,如果你也出现套单的情况,或者对后市不知道怎么操作,想走稳健路线的币友可以和我聊聊.

以太坊:八成央行开展法定数字货币研发_买比特币合法吗

比特币不断突破新高,从2万美元涨到3.5万美元用了不到1个月的时间;而以太坊虽然已经突破1200美元以上,但是距离历史高点1422美元,还有近40%的涨幅.

区块链:现在值17亿了 又心疼那7500个比特币(BTC)了 还能挖回来吗?_比特币害我家破人亡

2013年,英国IT工程师詹姆斯·豪威尔斯曾不小心将藏有7500枚比特币私钥的硬盘当垃圾扔掉,按照约37000美元现价,估算约2.7亿美元,约合人民币17亿!索菲亚觉得.

300:次顶确立 昨晚果然下跌一波_区块链dapp游戏

????????生活,永远不会亏待用心经营它的人,做一个不轻易垮塌的成年人,天行健,君子以自强不息,地势坤,君子以厚德载物。提笔安天下,跨马定乾坤.

CHA:Channels创始人做客格物院公话借贷赛道下的下一匹黑马_ELS

1月17日20时,Channels创始人做客格物院,一起探讨Heco上的借贷项目Channels的深层内核,创始人MingyangShen表示:在产品安全、产品体验和产品收益上.