这篇论文展示了语言模型(LMs)可以通过吸收(即融合)来自同源模型的参数来获得新的能力,这个过程不需要重新训练或使用GPU。这种方法的核心是利用DARE(DropAndREscale)技术,它通过减少模型参数中的冗余(即将某些参数设为零并重新缩放剩余参数),使得可以将多个专用于特定任务的模型合并成一个多能力模型,而不损失性能。
这就像超级玛丽能够通过吸收道具来获得额外的能力,如变大、发射火球等。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
一个无代码登陆页面构建器,旨在帮助早期企业验证他们的想法并快速有效地获得第一批客户,用户无需编写一行代码,只需几分钟即可轻松创建自定义登陆页面。