《当我们训练最大的视觉语言模型并添加机器人体验时会发生什么?》 其结果
《当我们训练最大的视觉语言模型并添加机器人体验时会发生什么?》其结果是 PaLM-E ,一个 5620 亿参数、通用、具体化的视觉语言通才——横跨机器人、视觉和语言。Google 公布了 PaLM-E 具身语言模型,562B 参数,将现实世界的信息通过传感器纳入语言模型,让机器人可以连续对物体进行适应性操作.PaLM-E 支持直接从像素进行机器人规划——所有这些都在一个模型中,端到端训练。此处模型正在引导机器人从厨房取薯片袋。 PaLM-E 集成到控制回路中,对机器人旅途中发生的干扰具有鲁棒性。在不同的领域,这里的**相同**精确 PaLM-E 模型正在实时控制机器人。这个机器人最近需要人工协助来引导它完成非常长的任务 ( https%3A%2F%2Finteractive-language.github.io ),但现在 PaLM非会员试读19%,加入社区后可阅读全文
页:
[1]