高效组合多个大模子"酌盈注虚"新念念路万博体育(中国)官方网站,被顶会 NeurIPS 2024 经受。
名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于 100M 的参数)和诡计高效性(不需要关于 LLM 进行梯度回传)的上风。
在具有挑战性言语交融、代码生成和数学推理等推理任求现实中,RouterDC 在辩认内(+2.76%)和辩认外(+1.90%)设定下,都远超于现存的 routing 重要。
大家皆知,LLM 频繁在不同数据集上预检会和微调,导致它们在不同任务上的性能强弱不同。
LLM 路由则是一种组合多个 LLM 的新念念路,它通过学习一个路由器(Router)来为每一个申请(query)遴荐最相宜的 LLM。在推理时,LLM 路由只需要调用所选的 LLM 进行推理,使其在保抓诡计高效性的同期愚弄多个 LLM 的互补智商。
RouterDC 这种新重要,包括一个较小的言语模子四肢编码器和一系列与候选 LLM 对应的可学习的LLM embeddings。
关于检会数据中的每个 query,最初将候选 LLM 的瞻望与信得过标签进行比较获取推崇最好和最差的 LLM,然后构造两个对比亏损:
sample-LLM 对比亏损:使得 query embedding(由编码器索要)与推崇最好的 LLM embeddings 相似,同期与推崇最差的 LLM embeddings 不相似。
sample-sample 对比亏损:提高检会的剖析性,将统统检会 query 聚类成多个组,最大化同组 query 之间的相似性的同期最小化不同组 query 之间的相似性。
这项接头由来自南边科技大学,香港科技大学的接头团队淡薄,以下是更为注重的先容。
双对比学习竣事 Router 检会
Router 架构
如图 1 所示,RouterDC 包括一个较小的言语模子(mDeBERTaV3-base)四肢编码器 ε,和一系列的与候选 LLM 对应的可学习 LLM 镶嵌 kT。关于每个 query xi,RouterDC 生成关于 T 个 LLMs 的遴荐概率如下:
其中,sim ( · , · ) 线路 cosine 相似度。
△图 1:RouterDC 重要线路图
sample-LLM 对比亏损
为了检会 router,接头者将 query 的样本镶嵌和在其上推崇最好的 K+ 个 LLM 对应镶嵌拉进,和在其上推崇最差的 K- 个 LLM 对应镶嵌拉远。因此,样本 -LLM 对比亏损不错线路为:
sample-sample 对比亏损
接头者通过现实发现,在 routing 问题中只使用样本 -LLM 对比亏损并不剖析,使得相似的 query 可能具有不相似的镶嵌。
为了擢升检会的鲁棒性,检会样本被聚类成不同的组,从而在检会中拉近并吞个组内的样本,拉远不同组的样本。和样本 -LLM 对比亏损近似,样本 - 样本对比亏损不错公式化为:
检会及推理
最终的优化处所为最小化样本 -LLM 对比损构怨样本 - 样本对比亏损的联结:
推理时,每个测试 query 只需要通过检会好的 router 登科概率最大的 LLM,并使用遴荐的 LLM 对 query 进行回答。
RouterDC 在检会时不需要任何历程 LLM 的梯度回传,何况在推理时只需要调用进行一次 LLM,同期具有检会和推理的高效性。
现实后果怎样?
主要摒弃
RouterDC 在辩认内数据集的测试准确率摒弃如表 1 所示。不错发现:
RouterDC 显贵好于最优的单个模子,平均具有 3.98% 性能擢升。在单个任务的层面,RouterDC 在三个任务上比拟推崇最优的单个模子取得了准确率的擢升,其中 GSM8K 擢升了 0.51%,ARC-C 擢升了 0.57%,HumanEval 擢升了 1.63%。
和现存路由重要 CosineClassifier 以及 ZOOTER 对比,RouterDC 在统统任务上都具有更好的推崇。和 LoraRetriever 对比,RouterDC 具有平均 2.77% 的准确率擢升。
△表 1:辩认内任务的测试准确率(%)
为了评估 RouterDC 的泛化智商,表 2 展示了 RouterDC 在三个辩认外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。
不错看出,RouterDC 再次达到最高的测试准确率,显贵罕见推崇最好的单个 LLM(dolphin-2.9-llama3-8b)1.9%。
△表 2:辩认外任务的测试准确率(%)
sample-sample 亏损的作用
为了探究样本 - 样本亏损的作用,图 3 展示了在是否有样本 - 样本亏损的条目下检会和测试准确率弧线。不错看出,RouterDC(w/o Lsample-sample)有显豁的触动征象,而 RouterDC 则剖析得多。
△图 2:RouterDC 在 GSM8K 任务上的检会和测试准确率弧线
图 3(a)可视化了使用 RouterDC(w/o Lsample-sample)索要的检会样本的 TSNE 特征,不错看到,属于不同任务的检会样本奸险地搀杂在一齐。而在联结 Lsample-sample 之后,检会样本有了明晰的聚类结构(如图 3(b)所示)。
△图 3:学习到的 router 所索要出检会样本 embedding 的 t-SNE 可视化
RouterDC 具有资本高效性
由于价钱(cost)雷同是一个评估 LLM 的重要盘算,接头者通过 RouterBench 上的两个任务的现实来尽头研究 cost 的影响。如图 16 所示,RouterDC 比拟于 CosineClassifier 和 ZOOTER 愈加的资本高效。
△图 4:在 RouterBench 上使用不同的 Cost 获取的测试准确率
论文地址:https://arxiv.org/abs/2409.19886
代码地址:https://github.com/shuhao02/RouterDC
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 技俩主页都集,以及关联相貌哦
咱们会(尽量)实时修起你
点这里� � 关怀我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~