大语言模型(LLMs)在许多自然语言任务中展示了令人印象深刻的能力。然而,在执行多步推理时,自动回归生成过程使得LLMs容易产生错误、幻觉和不一致的陈述。
Skywork AI和南洋理工大学提出了一种通用、灵活的框架:Q* ,用于通过深思熟虑的规划来指导大语言模型(LLMs)的解码过程,以改进多步推理能力。通过学习一个即插即用的Q值模型作为启发函数,Q*能够有效地指导LLMs选择最有希望的下一步,而无需为每个任务微调LLMs,从而避免了大量的计算开销和可能的性能退化。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
谷灵AI,能够提升你的写作效率和创作灵感,专业提供各种AI应用,包括:AI聊天,AI文案创作,AI编程,AI写简历,AI写剧本,AI翻译。