EduChat:教育行业垂直领域大模型
发布时间:2024年06月06日
EduChat(https://www.educhat.top/)是一个基于大规模语言模型(LLM)的教育领域聊天机器人系统。
EduChat目标:支持个性化、公平和富有同情心的智能教育,为教师、学生和家长提供服务。在心理学和教育理论的指导下,它进一步加强了基于现有基本 LLM 的教育功能,如开放式问题回答、作文评估、苏格拉底式教学和情感支持。通过在教育语料库上进行预训练来学习领域特定的知识,并通过在设计的系统提示和指令上进行微调来刺激各种技能的使用。
模型代码开源地址:https://github.com/icalk-nlp/EduChat。
在线演示:https://vimeo.com/851004454
一、内容简介
大模型应用于教育领域存在几个挑战。
第一个挑战:llm和教育专家之间仍然存在差距,因为llm是在通用语料库上进行预训练的,缺乏足够的教育知识,不能很好地与真实场景(例如,论文评估)对齐。
第二个挑战:教育领域的知识在不断更新,而LLMs由于训练机制无法学习到最新的知识。此外,llm还存在幻觉问题,可能会产生不真实的反应。
为了解决这些问题,我们提出了EduChat,一个基于llm的智能教育聊天机器人系统。解决第一个挑战:我们在大量教育书籍(如心理学、古诗词)上对llm进行了预训练,并有400万条清洁的各种说明来学习基础知识。然后,根据心理学专家和一线教师的反馈,对50万条高质量定制指令进行微调,以激活特定教育功能(如作文评价、苏格拉底式教学和情感支持)。解决第二个挑战:本文探索了一种检索增强技术,使LLMs能够自动判断检索信息的有用性,并根据LLMs中存储的相关信息和知识生成响应。方式,我们的EduChat可以从互联网上获取最新的信息,确保回复的准确和可信。作为一个开源项目,EduChat提高了特定教育功能的性能,同时保持了与其他具有同等参数大小的大规模模型相当的基础能力。主要贡献如下:(1) 索了将心理学和教育理论纳入llm的潜力,这揭示了如何使一般的llm适应特定的领域;(2) 设计了多样化的系统提示和指令来控制工具的使用和刺激不同的技能,缓解了幻觉问题,更适用于真实的教育场景;
(3) 开发并发布了具有多种教育功能的EduChat系统,从而帮助开发者和研究者加速智能教育的研究和应用。
二 EduChat核心功能
(1) 开放式问答:教育领域对知识和相关政策的准确性和实时更新有很高的要求。然而,现有的生成式llm存在着捏造信息和知识更新滞后等问题。为解决这个问题,本文探索了检索增强的开放QA方法。通过利用来自互联网的实时更新的语料库作为外部知识源,使llm能够自主评估检索信息的相关性,以回答给定的问题,并决定纳入哪些信息来生成响应。通过广泛的实验分析,发现所提出模型在消除捏造和保持最新知识方面,比一般llm表现出显著优势。(2)作文批改:在作文考核中,老师会仔细标注语法错误,给出分数,并对突出的句子提供反馈。现有语言模型评分粒度较粗,限制了学生写作技能的提升。我们的研究专注于更细粒度和更全面的作文评估。我们结合一线教学专业人员的专业知识,提供综合评分、方面级别评分,以及对内容、表达、段落和整体评价的详细评论。该模型可以识别出优秀的句子,突出优势和有待改进的地方,实现对学生论文写作技能的个性化指导。这确保了在写作的各个方面提供及时和专业的支持。(3)启发式教学:我们专注于在llm中培养苏格拉底式的教学能力,而不是向学生提供直接的答案。我们采用苏格拉底式的对话方式,多步骤的问答互动,鼓励独立思考。通过激发讨论、辩论、评估和分析,我们旨在培养高级认知技能和培养学生学习的自主性。我们的最终目标是最大限度地提高批判性思维和创新能力。(4)情感支持:青少年和儿童由于认知发育不成熟,面临着更严重的心理压力。然而,目前的llm通常提供通用的建议,不能很好地适应具体的情感问题。为了解决这个问题,我们开发了一个基于情绪心理学的心理探究框架,如理性情绪行为疗法(Rationalemotional
Behavior Therapy, REBT)和ABC理论(Ellis, 1991)。微调后的模型可以模拟心理咨询师,为用户提供个性化诊断和情感支持。EduChat促进对用户情感状态的更深入的了解,并提供准确和专业的帮助。
三、数据预处理
3.1 预训练数据
教材数据:
(1) 中国初高中考试中收集了大量的教育教科书和在线题库数据
(2) 7万多首中文诗歌来丰富我们的模型,提供作者、背景和诗歌欣赏的详细信息,以增强其诗歌创作和欣赏能力。
(3) 数百本心理学书籍中精心挑选了60部名著,包括发展与教育心理学、社会心理学、行为心理学、咨询心理学等15个心理学分支。第二类包括各种心理实践,提供心理咨询和情感支持对话的实践案例。通过将多样化的基础数据纳入预训练,该模型对教育和心理学有了更深的理解,使其能够产生更有帮助的响应。
基本指令数据:
为了实现更自然的人机交互,从著名的开源库中收集了大量双语指导调优数据,如Alpaca、BELLE(Ji et al., 2023)、GPT4All、Open-Assistant、FLANCoT和Firefly。数据跨越了各种任务类型,使模型能够获得各种指令类型的基本指令遵循能力。此外,我们还从MOSS (Sun et al., 2023)、BELLE (Ji et al.,2023)、COIG (Zhang et al., 2023a)、LIMA (Zhouet al., 2023a)和ShareGPT获取高质量的多轮对话数据。这些数据涵盖了各种对话语境,包括角色扮演、创意写作和与代码相关的讨论,确保了模型参与和维持有意义的多轮对话的能力。
3.2 微调数据
为了提升教学能力,该文构建了用于微调的教育教学数据,包括检索增强的开放问答、情感支持、启发式教学和作文评价。分布如图1所示。
检索增强的开放QA数据:为了解决开放QA中的幻觉和及时知识问题,设计了一种检索增强的开放QA技术。通过ChatGPT评分在相关的开放问答和主题问答数据集上采样高质量数据。为了处理不相关的检索内容,引入了自检。ChatGPT评估检索内容是否有助于回答问题,然后使用自检生成答案,合并有用的检索内容和问题。为了保持数据质量,我们在此过程中手动验证数据。
情感支持数据:针对中文情感支持对话数据匮乏的问题,该文采用翻译扩展的方法。该文将广泛使用的英文情感支持数据集ESConv (Liuet al., 2021)翻译成中文为ESConv-zh。在人工审查和清理后,在ESConv-zh中模拟了基于各种患者场景的多智能体对话,并收集了真实的中国心理咨询数据,融合了患者信息和诊断结果。通过在不同的数据集上训练模型,使其能够提供强大的情感支持,并在咨询期间充当富有同情心的咨询师。
启发教学资料:教师在引导和鼓励启发式探索方面发挥着关键作用,而不仅仅是提供答案。为支持这一点,通过纳入涉及反问题、挑战和询问的多步骤问答,生成模拟启发教学方法的对话。这些对话的准确性、流畅性以及从简单问题到复杂问题的进展都是人工评估的。将这个数据集集成到训练中,使我们的模型在启发式教学中具有强大的力,区别于其他只提供直接答案的llm。
作文评估数据:缺乏及时细致的反馈往往阻碍学生写作的提高。为了解决这个问题,我们创建了一个高质量的作文评估数据集。首先,我们收集了论文,并使用ChatGPT从内容、表达和整体质量方面对它们进行评估。为了确保数据质量,我们邀请教学专家手工整理评论。该数据集使EduChat有能力为学生提供高质量的反馈,帮助提高他们的写作技能。
四、功能板块
4.1 EduChat训练
EduChat的训练主要分为两个阶段:基本能力的获取和教育技能的获取。在第一阶段,我们在教育书籍和答疑对上对模型进行预训练,以使其具备跨学科的基础知识。此外,还纳入了大规模的指令调优和开放域对话数据集,以实现基本的指令跟随能力和对话能力。在第二阶段,我们通过在我们精心组织的数据上微调模型来发展EduChat的教学技能,包括检索增强的开放QA,情感支持启发教学和论文评估数据集
4.2 在线知识检索
现有的生成式llm都存在产生幻觉和过时信息的问题,这对教育模型是有害的。为了缓解这个问题,我们引入了自检,如图2所示。具体来说,当启用在线知识检索时,模型通过询问自己“这对回答问题有帮助吗? 来选择有用的检索结果,并在对话历史记录之前添加过滤的片段。
4.3
Prompt 设计
教师总是利用各种不同技能的工具来加强不同学科的教学。为了让EduChat模拟真实的师生互动,我们精心设计了系统提示,包括个人资料、工具使用和技能选择(参见图2)。详细设置可以在表2中找到。
1)个人简介:为了提醒模型自身的身份,系统提示以“EduChat是华东师范大学开发的会话语言模型”开头; 2)工具使用:为了规范工具的可用性,系统提示的第二部分以“EduChat的工具:”开始,列出所有工具的名称和它们各自的可访问性。例如,"Web search: Enable"表示模型使用检索的能力,而"Calculator: Disable"表示模型无法使用计算器; 3)技能选择: 不同环境下的教师拥有独特的沟通技巧,如启发式教学或心理情感支持。为了适应特定场景,我们在系统提示的末尾加入了功能名称,根据场景的需求激活相应的能力。
Figure 2: EduChat的总体框架。
4.4 示例
我们还为EduChat开发了一个用户友好的演示系统(参见图3)。用户登录后,可以从多种功能中进行选择,如开放问答、情感支持等,每个功能都提供一个场景化的系统提示来激活相应的能力。通过这个直观的界面,用户可以轻松地与EduChat进行交互式对话,以帮助学生、教师和家长。此外,该系统被设计为自适应,不断从用户交互中学习,以进一步提高其能力,并随着时间的推移提供更个性化和有效的帮助。
五实验结果
5.1
C-Eval结果
表1展示了我们的模型在C-Eval基准上的结果,该基准是一个用于基础模型的综合中文评估套件。该数据集由13948个选择题组成,跨越52个不同的学科,分为四个难度级别。通过分析表,我们观察到与具有相似参数规模的模型相比,该模型取得了良好的性能,如Chinese Alpaca-13B和WastlackLM。值得注意的是,EduChat和中国Alpaca-13B都是建立在lama - 13b基础模型上的。然而,EduChat比中国羊驼13b高出7个百分点。将检索集成到llm中被证明是非常有效的,证明了检索增强的开放QA技术在提高模型性能方面的能力。
5.2 案例研究
图4显示了我们的EduChat关于检索增强的开放QA和启发式教学的案例。EduChat可以检索相关信息,提供准确的答案,并学会像老师一样引导学生一步一步地解决问题。在情感支持方面,EduChat可以像心理咨询师一样互动,而不是提供一般性的建议。
六结论
该文介绍了一个基于llm的智能教育聊天机器人系统EduChat。我们的目标是为老师、学生和家长提供个性化、公平和富有同情心的支持。通过运用心理学和教育理论,我们增强了开放问答、作文测评、启发式教学、情感支持等教育功能。通过在教育语料库上的预训练和特定任务指令的微调,EduChat在C-Eval基准上表现出良好的性能。总的来说,EduChat在智能教育的变革方面显示出巨大的潜力。在未来的工作中,我们还将拓展EduChat的更多功能,如职业生涯规划、课程指导、自动出题等。
DeepL 自德国的初创公司,官网号称全世界最准确的翻译,最初的翻译服务主要以欧洲语系为主。在中英互翻、日英互翻的表现上远胜于 Google 翻译。