SWAP:GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API，游戏终结了？_Stackswap

作者：

时间：

谁能革得了ChatGPT的命？现在看来还是OpenAI自己。

在ChatGPT引爆科技领域之后，人们一直在讨论AI「下一步」的发展会是什么，很多学者都提到了多模态，我们并没有等太久。今天凌晨，OpenAI发布了多模态预训练大模型GPT-4。

GPT-4实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至2.5万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

「GPT-4是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人，」OpenAI工程师在介绍视频里说道。

似乎是想一口气终结这场游戏，OpenAI既发布了论文、SystemCard，把ChatGPT直接升级成了GPT-4版的，也开放了GPT-4的API。

另外，微软营销主管在GPT-4发布后第一时间表示：「如果你在过去六周内的任何时候使用过新的Bing预览版，你就已经提前了解了OpenAI最新模型的强大功能。」是的，微软的新必应早就已经用上了GPT-4。

接下来，就让我们细细品味这场震撼发布。

GPT-4：我SAT考710，也能当律师

GPT-4是一个大型多模态模型，能接受图像和文本输入，再输出正确的文本回复。实验表明，GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

OpenAI花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里，OpenAI重建了整个深度学习堆栈，并与Azure一起为其工作负载从头开始设计了一台超级计算机。一年前，OpenAI在训练GPT-3.5时第一次尝试运行了该超算系统，之后他们又陆续发现并修复了一些错误，改进了其理论基础。这些改进的结果是GPT-4的训练运行获得了前所未有的稳定，以至于OpenAI能够提前准确预测GPT-4的训练性能，它也是第一个实现这一点的大模型。OpenAI表示他们将继续专注于可靠的扩展，进一步完善方法，以帮助其实现更强大的提前预测性能和规划未来的能力，这对安全至关重要。

Karate Combat完成1800万美元融资用于加密驱动的武术:4月19日消息，空手道格斗应用程序Karate Combat完成1800万美元融资用于加密驱动的武术。加入基金领导 Bitkraft Ventures 的投资者包括 Delphi Digital、The Operating Group、Alpha Wave Global、Hashkey、RooxieXBT 等。空手道格斗联赛由HBAR 基金会赞助，该基金会支持 Hedera 生态系统和Hedera Hashgraph网络。[2023/4/19 14:14:13]

OpenAI正在通过ChatGPT和API发布GPT-4的文本输入功能。图像输入功能方面，为了获得更广泛的可用性，OpenAI正在与其他公司展开合作。

OpenAI今天还开源了OpenAIEvals，这是其用于自动评估AI模型性能的框架。OpenAI表示此举是为了让所有人都可以指出其模型中的缺点，以帮助OpenAI进一步改进模型。

有趣的是，GPT-3.5和GPT-4之间的区别很微妙。当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。为了了解这两个模型之间的差异，OpenAI在各种基准和一些为人类设计的模拟考试上进行了实验。

OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型，以及大多数SOTA模型：

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力，研究团队使用AzureTranslate将MMLU基准——一套涵盖57个主题的14000个多项选择题——翻译成多种语言。在测试的26种语言的24种中，GPT-4优于GPT-3.5和其他大语言模型的英语语言性能：

大额转入：约4419万美元BTC转入Coinbase:金色财经报道，1912枚BTC于今日02:33从未知钱包转入Coinbase，价值约4419万美元。[2023/1/31 11:37:22]

就像许多使用ChatGPT的公司一样，OpenAI表示他们内部也在使用GPT-4，因此OpenAI也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI还使用GPT-4辅助人们评估AI输出，这也是OpenAI对其策略的第二阶段。OpenAI既是GPT-4的开发者，也是使用者。

GPT-4：我能玩梗图

GPT-4可以接受文本和图像形式的prompt，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

具体来说，它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图上——GPT-4展示了与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术得到增强，包括少样本和思维链prompt。

比如给GPT-4一个长相奇怪的充电器的图片，问为什么这很可笑？

GPT-4回答道，VGA线充iPhone。

格鲁吉亚和西亚的人均每日肉类消费，算平均数：

看起来，现在的GPT已经不会在计算上胡言乱语了：

还是太简单，那直接让它做题，还是个物理题：

彭博社：过去一年约有500亿美元的加密货币资产离开中国:区块链分析公司Chainalysis最新研究数据显示，过去一年约有500亿美元的加密货币资产离开中国，这表明投资者正在利用加密货币绕开本地资本转移限制。其中，Tether在东亚市场过去一年流出的资金规模超过180亿美元，作为与美元挂钩的稳定币，Tether在东亚地区的使用量占到该地区稳定币使用总量的93%。Chainalysis表示，像Tether这样的稳定币对资本外逃特别有用，因为它们与美元挂钩，意味着用户只需抛售就可以换取合法的稳定币，而且用户也不用担心会损失太多价值。Chainalysis还指出，中国对公民资金流动有所限制，每年只能将相当于5万美元的资金转移出国，而富人则通过进行海外房地产投资或创建空壳公司来规避这一规则，目前尚不清楚这500亿美元或利用Tether转移的资金中有多少来自资本外逃。加密货币投资公司Primitive Ventures万卉表示，对于许多中国人来说，Tether已成为美元的替代品。很多中国企业和商人，特别是在海外工作的中国人，现在都接受Tether。Tether首席技术官Paolo Ardoino表示，Tether的用例正在不断发展。但Chainalysis在报告中指出，Tether并不是灵丹妙药，也不是法定货币的替代品，但是与Tether相关的快速结算、高流动性、低费用和稳定价格为加密货币交易商、汇款、借贷产品等提供了独特的机会，也为法币汇率不稳定地区的人们提供了便利。（彭博社）[2020/8/21]

GPT-4看懂了法语题目，并完整解答：

GPT-4可以理解一张照片里「有什么不对劲的地方」：

GPT-4还可以量子速读看论文，如果你给它InstructGPT的论文，让它总结摘要，就会变成这样：

华尔街日报：摩根大通正为首批加密交易所客户提供服务:知情人士透露，摩根大通目前正在为加密交易所提供服务，其首批客户是Coinbase和Gemini。这是摩根大通首次接受加密客户。消息人士称，这两家交易所都被要求接受严格的审查程序，表明各大银行长期以来不愿与加密相关企业建立关系。Coinbase和Gemini的账户已于上月获得批准，交易现已开始处理。

据悉，摩根大通并不代表交易所处理比特币或其他加密货币交易，但面向美国客户提供现金管理服务和处理美元交易服务。该银行将通过自动清算所（Automated Clearing House）网络处理所有电汇和美元存取款。（华尔街日报）[2020/5/12]

如果你对论文里的某一个图感兴趣呢？GPT-4也可以解释一下：

接着来，问GPT-4梗图是什么意思：

它给出了详细的回答：

那么漫画呢？

让GPT-4解释为什么要给神经网络加层数，似乎有一点加倍的幽默感。

不过OpenAI在这里说了，图像输入是研究预览，仍不公开。

研究人员用学术的Benchmark视角来解读GPT-4的看图能力，然而这已经不够了，他们还能不断发现该模型可以令人兴奋地处理新任务——现在的矛盾是AI的能力和人类想象力之间的矛盾。

7月Polygon链上NFT销售额不足300万美元，创16个月内新低:金色财经报道，据最新NFT交易数据显示，7月Polygon链上NFT销售额仅为2,999,003.93美元，创16个月内新低。截至目前，Polygon链上销售总额略高于4.5亿美元，交易量1,214,327笔，其中链上销售额最高记录发生在2022年2月，当月销售额为54,262,760.35美元。[2022/8/1 2:50:54]

看到这里，应该有研究人员感叹：CV不存在了。

可控性

与具有固定冗长、平静语气和风格的经典ChatGPT个性不同，开发人员现在可以通过在「系统」消息中描述这些方向来规定他们的AI的风格和任务。

系统消息允许API用户在一定范围内定制化实现不同的用户体验。OpenAI知道你们在让ChatGPT玩Cosplay，也鼓励你们这样做。

局限性

尽管功能已经非常强大，但GPT-4仍与早期的GPT模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。OpenAI表示，GPT-4仍然会产生幻觉、生成错误答案，并出现推理错误。

目前，使用语言模型应谨慎审查输出内容，必要时使用与特定用例的需求相匹配的确切协议。

总的来说，GPT-4相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5模型高40%：

GPT-4在TruthfulQA等外部基准测试方面也取得了进展，OpenAI测试了模型将事实与错误陈述的对抗性选择区分开的能力，结果如下图所示。

实验结果表明，GPT-4基本模型在此任务上仅比GPT-3.5略好；然而，在经过RLHF后训练之后，二者的差距就很大了。以下是GPT-4的测试示例——并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见，OpenAI在这些方面已经取得了进展，目标是使建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观。

GPT-4通常缺乏对其绝大部分数据截止后发生的事件的了解，也不会从其经验中学习。它有时会犯一些简单的推理错误，这似乎与这么多领域的能力不相符，或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败，比如在它生成的代码中引入安全漏洞。

GPT-4预测时也可能出错但很自信，意识到可能出错时也不会double-check。有趣的是，基础预训练模型经过高度校准。然而，通过OpenAI目前的后训练过程，校准减少了。

风险及缓解措施

OpenAI表示，研究团队一直在对GPT-4进行迭代，使其从训练开始就更加安全和一致，所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4有着与以前的模型类似的风险，如产生有害的建议、错误的代码或不准确的信息。同时，GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度，团队聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家，对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估，来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险

按照demo视频里OpenAI工程师们的说法，GPT-4的训练在去年8月完成，剩下的时间都在进行微调提升，以及最重要的去除危险内容生成的工作。

GPT-4在RLHF训练中加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由GPT-4的零样本分类器提供的，它判断安全边界和安全相关prompt的完成方式。为了防止模型拒绝有效的请求，团队从各种来源收集多样化的数据集，在允许和不允许的类别上应用安全奖励信号。

这些措施大大在许多方面改善了GPT-4的安全性能。与GPT-3.5相比，模型对不允许内容的请求的响应倾向降低了82%，而GPT-4对敏感请求的响应符合政策的频率提高了29%。

训练过程

与之前的GPT模型一样，GPT-4基础模型经过训练可以预测文档中的下一个单词。OpenAI使用公开可用的数据以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，以及各种各样的意识形态和想法。

因此，当提出问题时，基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致，OpenAI依然使用强化学习人类反馈(RLHF)来微调模型的行为。请注意，该模型的能力似乎主要来自预训练过程——RLHF不会提高考试成绩。但是模型的控制来自后训练过程——基础模型甚至需要及时的工程设计来回答问题。

GPT-4的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是，对于像GPT-4这样的大型训练，进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化，在多种规模下都有可预测的行为。为了验证这种可扩展性，他们提前准确地预测了GPT-4在内部代码库上的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量为1/10000。

现在，OpenAI可以准确地预测在训练过程中优化的指标。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率：

有些能力仍然难以预测。例如，InverseScaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标，而hindsightneglect任务是获胜者之一。GPT-4扭转了这一趋势。

能够准确预测未来的机器学习能力对于技术安全来说至关重要，但它并没有得到足够的重视，OpenAI表示正在投入更多精力开发相关方法，并呼吁业界共同努力。

OpenAI表示正在开源OpenAIEvals软件框架，它被用于创建和运行基准测试以评估GPT-4等模型，同时可以逐样本地检查模型性能。

ChatGPT直接升级至GPT-4版

GPT-4发布后，OpenAI直接升级了ChatGPT。ChatGPTPlus订阅者可以在chat.openai.com上获得具有使用上限的GPT-4访问权限。

要访问GPT-4API，用户可以注册等待。OpenAI会邀请部分开发者体验。

获得访问权限后，用户目前可以向GPT-4模型发出纯文本请求。至于价格方面，定价为每1k个prompttoken0.03美元，每1k个completiontoken0.06美元。默认速率限制为每分钟40k个token和每分钟200个请求。

GPT-4的上下文长度为8,192个token。OpenAI还提供了32,768个token上下文版本的有限访问，该版本也将随着时间自动更新（当前版本gpt-4-32k-0314，也支持到6月14日)。定价为每1Kprompttoken0.06美元和每1kcompletiontoken0.12美元。

以上，就是今天OpenAI关于GPT-4的所有内容了。令人不满的一点是，OpenAI公开的技术报告中，不包含任何关于模型架构、硬件、算力等方面的更多信息，可以说是很不Open了。

不管怎样，迫不及待的用户大概已经开始测试体验了吧。