近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。
让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。
数字翻译「中译英」测试
首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。
火山翻译:
腾讯翻译君:
冰岛因电力短缺减少工业用电,并拒绝新入比特币矿企的供电需求:12月7日消息,冰岛电力短缺导致岛上的主要公用事业公司Landsvirkjun减少了对一些工业客户的供应,比如鱼粉工厂、铝厂和数据中心。该公司周二表示,它还拒绝了新加密货币矿企客户的所有供电请求。Landsvirkjun表示,低水库水位、电站故障以及从外部生产商获取电力的延迟是推行此举的原因,立即生效。
冰岛最大的电力消费者是几十年前建造的受益于廉价电力的巨型冶炼厂,而最近进入该国市场的是加密货币矿企。加拿大的Hive Blockchain Technologies Ltd.、在中国香港上市的Genesis Mining Ltd.和Bitfury Holding BV等公司都在冰岛开设了挖矿业务。(彭博社)[2021/12/7 12:57:18]
以下为其他7款翻译产品的测试结果。
翻译为39.2亿:
投行BTIG董事总经理:预计比特币今年底将回升至5万美元/枚:投行BTIG董事总经理朱利安·伊曼纽尔表示,比特币在过去6个月里从1.8万美元/枚涨到6.4万美元/枚,再跌至3万美元/枚的剧烈波动提醒投资者,数字资产是不稳定的投资。但预计比特币今年年终价格为5万美元/枚,任何与监管担忧相关的短期波动都是买入机会。(金十)[2021/5/24 22:36:36]
翻译为392:
翻译为392万亿:
翻译为3.92亿:
Tether在以太坊网络增发4亿枚USDT:金色财经报道,Whale Alert数据显示,北京时间01月13日00:57,Tether在以太坊网络增发4亿枚USDT。增发哈希为b9e7d2e1eb93ce5732fc33b18d4ba4cdf3c1f1951b39bf29324c5d452da29394。[2021/1/13 16:01:09]
数字翻译「英译中」测试
我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?
这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。
以太坊24h链上交易量上升33.63%,当前建议Gas费用为36.16Gwei:金色财经消息,据欧科云链OKLink链上数据显示,以太坊24h链上活跃地址数逾61.53万,环比上升12.41%;链上交易量近371.34万ETH,环比上升33.63%;链上交易笔数逾113.61万笔,环比上升1.8%。
截至下午2时,以太坊全网算力约为252.51TH/s,环比下降0.42TH/s,建议Gas费用为36.16Gwei,环比上升35.18%,未确认交易数约8.33万笔。[2020/11/5 11:42:42]
火山翻译:
其他产品的翻译结果:
动态 | 以太坊未确认交易20622笔:据Etherscan.io数据显示,以太坊未确认交易20622笔。当前挖矿难度2492.91 TH,交易处理能力4.1 TPS。截至目前以太坊全球均价为127.55美元,最近24小时涨幅为0.68%。[2019/12/28]
数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。
数字翻译难在哪?
数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:
a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」
b.很长的数字容易带来偏差
c.超大数字的翻译问题,如trillion、万亿以上的单位
d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”
e.带有货币符号的数字容易犯错
当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。
火山翻译如何解决数字翻译难题?
我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。
火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。
国家重磅出手,明确比特币、以太币、泰达币等虚拟货币属于非法!一、9月24日,国家发改委等11部门发布《关于整治虚拟货币“挖矿”活动的通知》(以下简称“发改委《通知》”).
著名歌手李健曾在访谈中说过,他98年清华毕业在广电做工程师,月薪4000,如今许多大学毕业生的工资只有3000,而北京的房价却早已高不可攀,我国由最初期的工业时代转为工业时代后期.
反映NFT市场情况的主要指标多集中在外部数据上,这也使得市场关注点多瞄准交易量高,使用人数多、拍卖价高的产品端,从而轻松实现“流量增值”.
要闻速览 1、广东:支持深圳在数字人民币应用上先行先试2、字节回应旗下教育业务裁员:N+2裁员属实.
通过燕窝“回乡”的经历,借用拟人的手法,以第一人称的方式讲述了燕窝的主要成分以及相应的功效和危害、燕窝中唾液酸的制备方法、燕窝的掺假及真伪辨别,让读者以生动活泼的方式了解燕窝.
中国人民银行发布《关于进一步防范和处置虚拟货币交易炒作风险的通知》。通知指出,虚拟货币不具有与法定货币等同的法律地位.