你的位置:九游会J9(AG) 官方网站 > 新闻资讯 >

九游会体育李飞飞吴佳俊团队新提议的评估框架-九游会J9(AG) 官方网站


发布日期:2024-11-23 05:38    点击次数:172

大模子的具身智能有筹算智商,终于有系统的通用评估基准了。

李飞飞吴佳俊团队新提议的评估框架,对具身智能有筹算的四项瑕玷子智商来了个全面检查。

这套基准如故被选为了 NeurIPS 数据和测试集(D&B)专栏 Oral 论文,同期也被收录进了 PyPI,惟有一转代码就能快速调用。

该框架名为Embodied Agent Interface(简称 EAI),提供了纠合不同模块和基准环境的圭臬接口。

欺诈这套框架,作家对 18 款主流模子进行了测试,酿成了一篇超百页的论文。

测试截止潜入,在已公开的大模子当中,o1-preview 的抽象收成位列第一。

李飞飞本东说念主默示,对这项取悦斟酌感到相配欢快。

有网友评价说,这项截止为大模子具身智能有筹算塑造了异日。

四项子智商全面评估

最初,EAI 提供了一种长入的标的默示要道,好像兼容不同类型的标的,并扶植复杂拘谨的描写。

团队觉得,现存的具身有筹算任务不绝针对特定规模设想标的,清寒一致性和通用性。

举例,BEHAVIOR 和 VirtualHome 齐是具身智能体的评测基准和模拟环境,用于斟酌智能体在复杂环境中完成任务的智商。

但二者又有所区别,BEHAVIOR 使用基于气象的标的,而 VirtualHome 使用时辰彭胀的标的。

EAI 则通过引入线性时态逻辑(LTL),终局了标的默示形式的长入,进步了模块之间的互操作性,便于比较不同模子在归拢任务上的知道。

在具体的评估经由当中,EAI 秉承了模块化的评估形式,并将评估筹算进行了更细粒度的辞别。

以往的斟酌不绝将大模子算作全体进行评估,很少眷注其在具身有筹算各个子任务上的知道;

同期,这些现存基准不绝只眷注任务的最终顺利率,很少深入分析模子的不实类型和原因。

为了更深入交融大模子的行径模式和优劣势分散,EAI 提议了四个瑕玷智商模块,并设想了一系列细粒度的评估筹算:

将模子智商分为四个瑕玷模块;

界说了明晰的输入输出接口;

从轨迹可践诺性、标的餍足度、逻辑匹配性等多个角度评估模子的性能;

引入了丰富的清静(如标的气象、联系、动作),以终局自动化的不实分析。

具体来说,四个瑕玷模块及实际分别是:

标的讲明(Goal Interpretation):将当然言语表述的任务标的漂浮为体式化的 LTL 标的公式;

子标的理会(Subgoal Decomposition):将任务标的理会为一系列子标的,每个子标的也用 LTL 公式默示;

动作序列贪图(Action Sequencing):阐述任务标的生成动作序列,在环境中践诺以达成标的气象;

调治建模(Transition Modeling):为每个动作或操作符生成前概要求和效果,酿成环境调治模子。

另外,EAI 登第了两个具有代表性但特色迥异的环境,也便是前边提到的 BEHAVIOR 和 VirtualHome。

比拟于单一环境评估,EAI更能历练大模子跨规模的泛化智商,有助于全面交融其适用范畴和局限性。

o1-preview 抽象收成第一

欺诈 EAI 这套圭臬,斟酌团队对 GPT、Claude、Gemini 等 18 款主流模子(型号)的有筹算智商进行了评估。

在 BEHAVIOR 和 VirtualHome 环境下,o1-preview 均赢得了名次榜抽象收成第别称。

其中在 BEHAVIOR 环境中,o1-preview 得分为 74.9,比第二名的 Claude 3.5 Sonnet 高了 10 多分,排在之后的是 60 分傍边的 Claude 3 Opus 和 GPT-4o。

到了 VirtualHome 环境下,依然是 o1-preview 跳跃,但前三名的收成相对接近。

同期 Gemini 1.5 Pro 变成了第二名,不外全体来看名次靠前的几个模子和 BEHAVIOR 环境肖似。

虽然若是比较单项智商,不同模子也体现出了各自不同的上风神志。

比如在 BEHAVIOR 环境中,总分排第二的 Claude 3.5 Sonnet,标的讲明智商略高于总分排第一的 o1-preview。

在 VirtualHome 环境中,总分相对靠后的 Mistral Large,在动作序列贪图上取得了第别称。

作家还对各模子的失败情况进行了深入分析,发现了将中间气象误识别为最终标的气象、对隐含的物理联系交融不及、忽略紧迫的前概要求等具体问题。

这些发现好像让斟酌东说念主员对模子的优颓势进行更深层的了解,为之后的斟酌提供了紧迫参考。

神志主页:

https://embodied-agent-interface.github.io/

论文:

https://arxiv.org/abs/2410.07166

代码:

https://github.com/embodied-agent-interface/embodied-agent-interface

数据集:

https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface九游会体育



友情链接: