Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。
这种架构的主要优势:
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
Codesnippets AI(GPT95) 是一个 Visual Studio Code 扩展插件,它使用对话式 AI 模型 ChatGPT 和微调的 GPT3 模型来提供代码生成、重构、调试、解释和文档等各种功能。