微软研究院、马里兰大学、威斯康星大学麦迪逊分校 KAIST 和华盛顿大学的研究人员宣布推出多模态基础大模型 Magma。
Magma 采用了深度学习架构和大规模预训练相结合的方法,以优化其在多个领域的性能。该模型使用 ConvNeXt-XXL 视觉骨干处理图像和视频,同时使用 LLaMA-3-8B 语言模型处理文本输入。
Magma 的设计旨在克服现有 VLA 模型的不足,它采用了一种强大的训练方法,将多模态理解、行动基础和规划融为一体。Magma 采用包含 3,900 万个样本的多样化数据集进行训练,其中包括图像、视频和机器人动作轨迹。
(文/开源中国)