九游会J9(AG) 官方网站-九游会j9体育(中国)官方网站以下是更为详备的先容-九游会J9(AG) 官方网站

九游会j9体育(中国)官方网站以下是更为详备的先容-九游会J9(AG) 官方网站

发布日期:2024-11-23 08:45  点击次数:99

高效组合多个大模子"断长续短"新念念路九游会j9体育(中国)官方网站,被顶会 NeurIPS 2024 禁受。

名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于 100M 的参数)和筹算高效性(不需要关于 LLM 进行梯度回传)的上风。

在具有挑战性言语领会、代码生成和数学推理等推理任求实验中,RouterDC 在踱步内(+2.76%)和踱步外(+1.90%)设定下,齐远超于现存的 routing 要道。

无人不晓,LLM 持续在不同数据集上预锤真金不怕火和微调,导致它们在不同任务上的性能强弱不同。

LLM 路由则是一种组合多个 LLM 的新念念路,它通过学习一个路由器(Router)来为每一个肯求(query)选拔最符合的 LLM。在推理时,LLM 路由只需要调用所选的 LLM 进行推理,使其在保握筹算高效性的同期愚弄多个 LLM 的互补才调。

RouterDC 这种新要道,包括一个较小的言语模子当作编码器和一系列与候选 LLM 对应的可学习的LLM embeddings。

关于锤真金不怕火数据中的每个 query,最初将候选 LLM 的展望与实在标签进行比较得回发扬最好和最差的 LLM,然后构造两个对比亏欠:

sample-LLM 对比亏欠:使得 query embedding(由编码器索要)与发扬最好的 LLM embeddings 相似,同期与发扬最差的 LLM embeddings 不相似。

sample-sample 对比亏欠:提高锤真金不怕火的壮健性,将通盘锤真金不怕火 query 聚类成多个组,最大化同组 query 之间的相似性的同期最小化不同组 query 之间的相似性。

这项商榷由来自南边科技大学,香港科技大学的商榷团队提倡,以下是更为详备的先容。

双对比学习终结 Router 锤真金不怕火

Router 架构

如图 1 所示,RouterDC 包括一个较小的言语模子(mDeBERTaV3-base)当作编码器 ε,和一系列的与候选 LLM 对应的可学习 LLM 镶嵌 kT。关于每个 query xi,RouterDC 生成关于 T 个 LLMs 的选拔概率如下:

其中,sim ( · , · ) 线路 cosine 相似度。

△图 1:RouterDC 要道暗意图

sample-LLM 对比亏欠

为了锤真金不怕火 router,商榷者将 query 的样本镶嵌和在其上发扬最好的 K+ 个 LLM 对应镶嵌拉进,和在其上发扬最差的 K- 个 LLM 对应镶嵌拉远。因此,样本 -LLM 对比亏欠不错线路为:

sample-sample 对比亏欠

商榷者通过实验发现,在 routing 问题中只使用样本 -LLM 对比亏欠并不壮健,使得相似的 query 可能具有不相似的镶嵌。

为了擢升锤真金不怕火的鲁棒性,锤真金不怕火样本被聚类成不同的组,从而在锤真金不怕火中拉近归并个组内的样本,拉远不同组的样本。和样本 -LLM 对比亏欠雷同,样本 - 样本对比亏欠不错公式化为:

锤真金不怕火及推理

最终的优化标的为最小化样本 -LLM 对比损成仇样本 - 样本对比亏欠的聚首:

推理时,每个测试 query 只需要通过锤真金不怕火好的 router 中式概率最大的 LLM,并使用选拔的 LLM 对 query 进行回答。

RouterDC 在锤真金不怕火时不需要任何进程 LLM 的梯度回传,何况在推理时只需要调用进行一次 LLM,同期具有锤真金不怕火和推理的高效性。

实验后果怎样?

主要适度

RouterDC 在踱步内数据集的测试准确率适度如表 1 所示。不错发现:

RouterDC 显耀好于最优的单个模子,平均具有 3.98% 性能擢升。在单个任务的层面,RouterDC 在三个任务上比较发扬最优的单个模子取得了准确率的擢升,其中 GSM8K 擢升了 0.51%,ARC-C 擢升了 0.57%,HumanEval 擢升了 1.63%。

和现存路由要道 CosineClassifier 以及 ZOOTER 对比,RouterDC 在通盘任务上齐具有更好的发扬。和 LoraRetriever 对比,RouterDC 具有平均 2.77% 的准确率擢升。

△表 1:踱步内任务的测试准确率(%)

为了评估 RouterDC 的泛化才调,表 2 展示了 RouterDC 在三个踱步外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。

不错看出,RouterDC 再次达到最高的测试准确率,显耀进步发扬最好的单个 LLM(dolphin-2.9-llama3-8b)1.9%。

△表 2:踱步外任务的测试准确率(%)

sample-sample 亏欠的作用

为了探究样本 - 样本亏欠的作用,图 3 展示了在是否有样本 - 样本亏欠的条目下锤真金不怕火和测试准确率弧线。不错看出,RouterDC(w/o   Lsample-sample)有澄澈的颤动景象,而 RouterDC 则壮健得多。

△图 2:RouterDC 在 GSM8K 任务上的锤真金不怕火和测试准确率弧线

图 3(a)可视化了使用 RouterDC(w/o Lsample-sample)索要的锤真金不怕火样本的 TSNE 特征,不错看到,属于不同任务的锤真金不怕火样本幼稚地夹杂在沿途。而在聚首 Lsample-sample 之后,锤真金不怕火样本有了明晰的聚类结构(如图 3(b)所示)。

△图 3:学习到的 router 所索要出锤真金不怕火样本 embedding 的 t-SNE 可视化

RouterDC 具有老本高效性

由于价钱(cost)通常是一个评估 LLM 的伏击倡导,商榷者通过 RouterBench 上的两个任务的实验来终点接头 cost 的影响。如图 16 所示,RouterDC 比较于 CosineClassifier 和 ZOOTER 愈加的老本高效。

△图 4:在 RouterBench 上使用不同的 Cost 获取的测试准确率

论文地址:https://arxiv.org/abs/2409.19886

代码地址:https://github.com/shuhao02/RouterDC

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿试验‍

附上论文 / 名堂主页畅达,以及关连形势哦

咱们会(尽量)实时酬劳你

点这里� � 眷注我,记起标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再见 ~  



相关资讯
热点资讯
  • 友情链接:

Powered by 九游会J9(AG) 官方网站 @2013-2022 RSS地图 HTML地图