几个月前,OpenAI向公众推出了 ChatGPT,将支持AI 的聊天机器人置于全球对话的中心,并引发了关于该技术如何改变商业、教育、工作场所等的讨论。

亚马逊及其超越OPENAI的GPT3.5的人工智能

不久之后,互联网巨头谷歌和微软以及中国的其他公司纷纷推出了自己的聊天机器人,向公众展示他们所谓的“生成式人工智能”(能够创建对话文本、视觉效果等的技术)也已准备就绪。用于一般用途,但最近亚马逊也推出了一种旨在超越 GPT3.5的新语言模型。

这个最近宣布的亚马逊语言模型有望脱颖而出,因为它优于许多其他计划,尤其是GPT-3.5模型(比支持ChatGPT 的版本更新的版本)在ScienceQA 基准测试中的表现优于它 16% ( 75.17% ) .

该基准包含大量对多模态科学问题的注释回答,包括21,000多个多模态多项选择 (MCQ)问题。由于最近的技术进步,大型语言模型 (LLM) 可以有效地执行需要复杂推理的任务。使用了“思想链”(CoT )提示技术,它涉及创建中间逻辑阶段来演示如何执行任务。

尽管如此,最近的 CoT 研究仅检查语言模态,研究人员在多模态中寻找 CoT 推理时通常使用多模态 CoT 范式。多模态需要多种输入,包括语言和视觉。

尽管输入来自语言和视觉等多种模式,但Multimodal-CoT通过不止一步进入导致最终答案的中间思维过程来解决问题。在要求 LLM 做 CoT 之前,最流行的多模态 CoT 方法之一是将来自多种模态的数据聚合到单一模态中。

但是,这种方法有一些缺点,例如在格式之间转换数据时会丢失信息。已拟合的小型语言模型可以通过合并语言和视觉的各个部分来执行多模态的 CoT 推理。然而,这种策略的根本问题是这些语言模型容易产生幻觉推理模式,从而显着影响反应推理。

为了减少这些错误,亚马逊研究人员开发了Multimodal-CoT,它将视觉特征整合到不同的训练框架中。这项关于 CoT 思维与其他类型推理有何不同的研究尚属首次。

据亚马逊研究人员称,该方法在 ScienceQA 基准测试中处于领先地位,比 GPT-3.5 的准确率高出 16%,当然也优于人类表现。目前尚不清楚亚马逊何时向公众推出其人工智能,但我们希望它会尽快推出,以便我们能够真正看到其新模型与当今几乎所有人都尝试过的流行ChatGPT相比的优势。 一些点。