【2023年12月29日 - AI世界发生了什么】 AI+robotics 1、Unified-IO 2:使
【2023年12月29日 - AI世界发生了什么】AI+robotics1、Unified-IO 2:使用视觉、语言、音频和动作扩展自回归多模态模型%5B2312.17172v1%5D%20Unified-IO%202%3A%20Scaling%20Autoregressiv...我们推出了Unified-IO 2,这是首个能够处理图像、文本、音频和动作的自回归多模态模型。为了统一不同模态的数据,我们对输入和输出(包括图像、文本、音频、动作、边界框等)进行了分词,并将它们映射到共享的语义空间,然后使用单一的编码器-解码器Transformer模型进行处理。由于以这么多样化的模态进行训练具有挑战性,我们提出了各种架构改进来增强模型训练的稳定性。我们从头开始在一个包含来自不同来源的大型多模态预训练语料库的环境中训练了我们的模型,并通过多模态混合去噪目标进行微调。为了使模型具备广泛的技能,例如遵循多模态指令,我们构建并微调了一个包含120个数据集、提示和增强的集合。通过一个整合的模型,Unified-IO 2在GRIT基准测试中取得了最先进的性能,在超过35个基准测试中都展现出强大的结果,涵盖图像生成和理解、自然语言理解、视频和音频理解以及机器人操控等方面。我们已向研究界发布了我们的所有模型。AI Agents/AGI1、挑战智能体对推理进行推理:揭示大语言模型中的认知深度的基准测试%5B2312.17080v1%5D%20Challenge%20LLMs%20to%20Reason%20About%20Reas...在这项任务中,我们引入了一种创新的大型语言模型评估范式,对其进行元推理,从而提出了一种挑战。这一方法解决了传统数学问题解决基准的主要缺陷,这些基准通常用于评估智能体的认知能力。我们的评估范式将注意力从结果导向的评估转移到更全面的方面,有效地区分了不同模型之间的认知能力。例如,在我们的基准测试中,GPT-4的表现比GPT-3.5的准确性提高了十倍。这种新范式的重要性在于它有能力揭示大型语言模型中潜在的认知缺陷,而目前的基准测试(如GSM8K)由于饱和和对不同推理能力缺乏有效区分的原因无法发现这些缺陷。我们的综合分析包括了来自开源和闭源社区的几个最先进的数学模型,揭示了它们在训练和评估方法上的根本缺陷。本文不仅主张在大型语言模型评估中进行范式的转变,还为有关人工通用智能(AGI)的持续讨论做出了贡献。通过推动采用类似于我们的元推理评估方法,我们旨在促进对大型语言模型真实认知能力更准确的评估。2、体验式共同学习的软件开发智能体%5B2312.17025v1%5D%20Experiential%20Co-Learning%20of%20Softwar...最近,大型语言模型(LLM)的发展在多个领域引起了重大变革,尤其是在LLM推动的智能体方面。这些智能体展现出卓越的合作能力,能够共同完成任务并提高准确性,从而最大程度地减少对人类参与的依赖。然而,这些智能体通常在独立执行各种任务时缺乏对过去经验的利用。这种孤立可能导致重复错误和低效的尝试。因此,本文引入了一种新的框架,即经验共同学习(Experiential Co-Learning)。在这个框架下,导师和助理智能体从历史轨迹中汲取简非会员试读19%,加入社区后可阅读全文
页:
[1]