写在前面
2月13日,《2022年北京人工智能产业发展白皮书》正式发布,其中提到全面夯实人工智能产业发展底座,支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
很巧的是,飒姐团队成员在今年10月份的时候测评过:百度文心、源1.0、某道,三款国内现有的大模型,当时对测评结果甚是遗憾。于是又将当时的测试内容让ChatGPT做了一遍,试图摸清国内外大语言模型在问答这一领域的实际差距,旨在希望国内产学研戒骄戒躁,稳扎稳打地发展。
测试方案
本次测试仅仅考虑非连续性的单次问答,且皆为常识性问题,答案唯一,但题目会有一定的挑战性。具体的,涉及到What,When,Where,Who,Which五类问题。
国际原油涨至两年高位 国内油价将迎年内第八次上调:6月9日消息,从多家社会监测机构了解到,近期国际原油处于高位窄幅上行的态势,两大原油期货指标攀升至近两年高点,布伦特首次突破70美元/桶关口。在此之下,国内油价开启上调窗口将于6月11日24时开启,这将是本年度第八次上涨。隆众资讯油品分析师李彦表示,上调已是大概率事件。本轮调价过后,2021年的调价格局将变为“八涨一跌两搁浅”。 (经参)[2021/6/9 23:23:16]
问题样例如下:
1.“是什么”型问题,如“爸爸的爸爸叫什么?”
2.“什么时候”型问题,如“人们一般什么时候过元旦?”
3.“什么地点”型问题,如“孙中山安葬在哪里?”
4.“是谁型问题”,如“中国历史上第一个皇帝是谁?”
5.“哪?个型问题”,如“哪个洲是倒数第二小的洲?”
历史上的今天 | 国内20余公司涉嫌“蹭”区块链热点被监管:2019年3月19日,委内瑞拉政府正在努力收取该国比特币汇款的费用。2019年3月初,马杜罗政权推出了国有加密货币汇款服务公司Patria,该平台上所有的比特币和加密货币汇款被要求支付15%的费用。
2018年3月19日,银江股份发布公告称收到深交所关注函,要求说明是否存在蹭区块链热点概念炒作股价的动机。今年以来截至目前,上交所与深交所已经向20余家涉嫌“炒作”区块链概念的上市公司采取了问询、关注和停牌等举措。
2018年3月19日,IBM研究部主管在发布的年度预测中宣布,将在五年内推出大小比一粒盐还要小的全球最小计算机“加密锚”,并将与区块链的分布式账本技术结合,在不久的将来嵌入到日常生活设备中,以确保传输中的真实性。[2020/3/19]
问答样例对比
问题:“孙中山安葬在哪里?”
动态 | 星工场作品版权等将和国内区块链技术团队合作:据成都商报报道,3月23日下午,星工场文创IP成都孵化中心在蓉启动,星工场文创IP成都孵化中心主任、成都市青年创业联合会执行会长姚尧表示,我们的超模偶像,全新偶像打造,会推出AI智能虚拟偶像。巡演也会用到最先进的一些科技,包括呈现VR的演唱会。作品版权、艺人经纪方面也会和国内顶尖的区块链的技术团队来合作。[2019/3/24]
ChatGPT:孙中山的遗体最初安葬在南京中山陵内,后因战乱多次迁移。最终于1929年安葬在南京中山陵北麓的紫金山下,此地现为孙中山陵园。
百度文心:孙中山墓地
某道:"孙文(1866年-1925年10月12日),名文,字载之,号仲立,又名帝光,广东省香山县(今中山市)南朗镇翠亨村人,1883年(光绪九年)随父移居澳门。1904年参加孙中山领导的同盟会,任同盟会南方支部书记。曾两次赴日,组织策划惠州起义。后回澳门发展组织,被选为中国同盟会南方总支部庶务部长。1905年春,与陈少白、朱执信等在香港成立兴中会,被举为评议部评议员,旋被派往南洋联络同志,协助筹办革命刊物《中兴日报》。1906年冬,孙中山在日本东京成立中国同盟会中部总会,被委为秘书。1907年奉命回国,在广东发动民军起义。事败后潜赴南洋,继续组织发动华侨、华工和留学生进行革命活动。1911年武昌起义爆发后,被派往广州协助筹划起义,不幸事泄被捕,不久在广州黄花岗就义。
动态 | 立陶宛证券通证平台启动国内首例欧盟标准STO:据CoinTime 报道,格林尼治时间11月8日14:00,欧盟成员国立陶宛国内首个合规STO正式上线。该STO是由一家名为DESICO的公司进行的,发布的该平台的证券通证。该公司的CEO Laimonas Noreika称,持有该平台证券通证的投资者有权获得平台收入,此举完全符合欧盟法律合规标准,满足KYC和AML等要求,今后可以为用户提供的相同商业模式。他同时表示,该公司已经获得了自己的金融经纪牌照,现在可以通过提供符合欧盟规定的证券通证实现风险投资和中小企业融资的民主化。[2018/11/8]
源1.0:孙中山安葬在南京紫金山中山陵
问题:哪个洲是倒数第二小的洲?
ChatGPT:开始回答了错误的答案,与其对话后成功纠正
今年第一季度国内四成VC投资被区块链吸走:据IT桔子数据显示,资本对今年新宠区块链十分开放,互联网创投市场上当季41%获投项目聚焦区块链,主要业务包括媒体(12家)和数字货币(37.3%)两大方向。[2018/4/8]
百度文心:南极洲
某道:南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)“
源1.0:大洋洲
总体分析
四个系统对于基本问题的问答可谓是手到擒来。五类问题中,when问题和who问题整体回答的情况最好。三个国产系统中整体文心系统的表现最好。ChatGPT也会犯错,但是往往只要略微引导,便能改正错误。
错误回答分析
错误语句生成:语句本身并不通顺,前后主题不一致或者内容不一致,给人错乱的感觉。
例如问:爸爸的爸爸称谓是什么?
答:??爸爸的父亲,也就是爸爸的爷爷,是妈妈的爸爸。爸爸的爷爷的爸爸叫太爷爷。爸爸的爷爷的爷爷叫太奶爷(奶奶的爸爸)
或问:我们党二大在哪里召开?
答:1921年7月23日至31日,中国第二次全国代表大会在浙江省嘉兴市南湖的一艘游船上召开。出席大会的正式代表共13人,候补代表5人,代表全国121名员。共产国际代表马林、尼科尔斯基和鲍罗廷等参加了会议。
事实性错误:产生了事实性的错误。
例如问:?孙文去世的日子?
答:孙文去世的日子是1918年3月13日
偏见性素材:回答取自的素材较少,体现比较强的笔者的主观性。
例如问:大家什么时候过元旦?
答:谢邀。我是在大学过的,所以元旦是在宿舍过的。我们宿舍六个人,有四个人都回家了,剩下我一个在宿舍,所以元旦那天我过得比较孤独,不过还好啦,因为宿舍就我自己了,所以我可以一个人吃饭,一个人看电影,一个人逛超市,一个人睡觉,一个人......
含有逻辑性的问题无法识别:问题中存在复合问题或者逻辑判断,一般难以处理。
例如问:哪个洲是倒数第二小的洲?
答:"南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)
写在最后
飒姐团队认为,传统的单一问答模型可用性不大,给予用户的体验感也欠佳,国产大语言模型下一个里程碑,前辈ChatGPT已经给出了方向,便是对话问答。在使用ChatGPT的时候,虽然它也经常会给出错误答案,但是其回答的逻辑依旧符合人的习惯,同时经过一定的对话引导,可以自行发现其回答逻辑性的缺失。
作为全新的一种数据合成方式,大语言模型的直接输出可能是我们人类无法把控的,但是只要它能“理解”用户的输入,以此为依调整其输出,最后得到满意的回答,那便是可用的。进一步的,大语言模型未来的趋势很有可能是提前预判用户可能的“纠错”,并提前“自纠错”,并对纠错结果进行评估。
撰文:RobinGuo?哪些人是Web3游戏玩家,是休闲玩家还是硬核玩家?对此,A16zGames进行了一项调查,以进一步了解情况.
谷歌想证明它可以在AI竞赛中与微软抗衡,创建一个新的人工智能搜索引擎,但一个错误回答最终导致母公司Alphabet的市场损失超过千亿美元。 低开低走的美股市场 周三,美股三大指数低开低走.
近期,加密市场经历了2023年以来的首次重大回调,同时还有美国的监管举措和美国证券交易委员会SEC打击行动的消息.
本文来自Ethereum,?org2月10日,以太坊官网更新质押提款页面,其中详细介绍以太坊质押提款的相关事项,包括质押奖励领取,质押提款步骤、提款时间周期等.
撰文:Zeneca_33 编译:DeFi之道 我最近的一条推文似乎引起了NFT社区很大一部分人的共鸣.
2月10日消息,由三箭资本创始人ZhuSu等人创办的CEX项目“GTX”正式公布名称“OPNX”,目前平台官网已上线,用户可申请加入理赔候补名单.