这篇论文展示了语言模型(LMs)可以通过吸收(即融合)来自同源模型的参数来获得新的能力,这个过程不需要重新训练或使用GPU。这种方法的核心是利用DARE(DropAndREscale)技术,它通过减少模型参数中的冗余(即将某些参数设为零并重新缩放剩余参数),使得可以将多个专用于特定任务的模型合并成一个多能力模型,而不损失性能。
这就像超级玛丽能够通过吸收道具来获得额外的能力,如变大、发射火球等。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。