这篇论文展示了语言模型(LMs)可以通过吸收(即融合)来自同源模型的参数来获得新的能力,这个过程不需要重新训练或使用GPU。这种方法的核心是利用DARE(DropAndREscale)技术,它通过减少模型参数中的冗余(即将某些参数设为零并重新缩放剩余参数),使得可以将多个专用于特定任务的模型合并成一个多能力模型,而不损失性能。
这就像超级玛丽能够通过吸收道具来获得额外的能力,如变大、发射火球等。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
小莫写作是一款基于人工智能的AI论文写作辅助工具,可以帮助用户快速生成论文提纲、内容、参考文献等,还可以进行论文查重、改写、纠错等操作,是学生和老师的好帮手。