一次10万token!Claude2重磅发布,性能直逼GPT-4,不要钱免费用!
发布时间:2024年06月06日
就在刚刚,ChatGPT最大竞争对手发布了Claude 2!升级后的模型,在编码、数学和推理方面的性能都有所提高。
同时,官网提到了Claude 2的取得的两个成绩,一个是在律师资格证考试,多项选择题中取得了76.5%的成绩,在GRE考试中,比90%申请研究生院的学生取得的成绩要高。
通过观察放出的测试版网站Claude.ai,会发现它的版面比较见解,支持上传文档PDF,并基于PDF进行对话。目前Claude 2的上下文窗口已经“卷”到100K个Token,意味着可以让它处理数百页的技术文档,甚至是一本书。
甚至还可提供实时编码数据可视化!
除了法律资格证和GRE成绩,在一些更能评估逻辑能力的测试中也有更好的表现。例如:在Python编程测试CodexHumanEval上的得分从 56.0% 提高到了 71.2%;小学数学问题的测试GSM8k上得分从85.2% 提高到了 88.0%
据网友评价:在一些指标上已经超过了GPT-4,目前100K token的上下文窗口,是目前模型中最大的,且拥有更快的处理速度。
也有网友评价,不如GPT-4!
同时,Claude开发团队一直在对模型进行迭代升级,目的是提高其底层的安全性,降低其产生攻击性或危险性输出的可能性。为了评估模型在处理有害提示方面的表现,团队设立了一个内部红队(专门负责安全评估的团队),通过自动化测试对模型进行评分,并定期手动检查测试结果。与 Claude 1.3 相比,Claude 2 在给出无害回应方面的表现提高了2倍。
虽然没有模型能够完全避免被“突破”,但团队采用了各种安全技术,并进行了广泛的红队测试,可以在一定程度上提高模型输出的质量。
据悉,目前Claude已经开放美国和英国地区使用,未来几个月内会让 Claude 在全球范围内更广泛地使用。
在Claude官网中,给出了许多操作手册,按照官网说法,遵循这些操作规则能够取得更好的使用体验,其实这些小技巧在GPT中也适用。
Tip1 防止幻觉出现
在 Claude 不知道问题答案时,明确允许它回答“我不知道”。
将 Claude 看作字面意义上竭尽全力去完成要求的AI 助手。因此,当向它提问,它并不知道答案时,它会“极力尝试提供帮助”,这可能导致产生虚构的(hallucinate)答案。与人类不同,它没有社会背景中的潜在规则,即说谎比直接说“我不知道”更糟糕。
差的指令:
Human: 记录中最重的河马是多重?
好的指令:
Human: 只有当知道答案或可以做出有根据的猜测时,请回答以下问题;否则请告诉我“你不知道答案”。
Tip2 给AI助手思考空间
例如让Claude通过从FAQ文档中摘录相关引用来“思考”一个问题:
Tip3 一步一步思考
如果要求Claude执行的复杂任务包含许多子任务时,将这些子任务单独列出会很有帮助。
当自己不太了解子任务,通过明确告诉Claude逐步思考,可以显着提高响应的推理和准确性。
差的指令:
Human: 有两只宠物猫。其中一只缺一条腿,另一只拥有猫的正常腿数。您的猫总共有多少条腿?让我们逐步思考这个问题。
好的指令:
Human:我有两只宠物猫。其中一只缺一条腿,另一只拥有猫正常的腿数。我的猫总共有多少条腿?
Assistant: Can I think step-by-step?
Human: Yes, please do.
Tip4 将复杂任务分解为子任务
如果了解复杂任务的子任务是什么,可以通过将提示分解成步骤来帮助Claude。
差的指令:
Human: 我希望你写一篇关于声明STATEMENT的文章,其中有三个主题句支持该声明,三个主题句反对该声明,并在结尾处写一个结论。
好的指令:
Human:请按照以下步骤操作:
写出三个主题句,支持STATEMENT。
写出三个主题句,反对STATEMENT。
通过扩展步骤1和2中的每个主题句并添加结论来撰写一篇文章。请在essay标记中包含文章。
Tip5 使用提示链
Prompt Chaining可以让通过向Claude传递多个较小和简单的提示来完成复杂任务,有时它比将任务的所有子任务放在单个提示中更有效。
在下面例子中,我们将提供给Claude一个文档和一个我们希望它基于该文档回答的问题。告诉Claude使用文档文本和相关引用来回答问题通常比仅使用文本或引用更准确。
在我们的第一个Prompt中,我们要求Claude提取与我们的问题相关的直接文档引用:
第一步
Human: : 这是一个文档,在document XML标记中:
请逐字提取任何与问题QUESTION相关的引用。请将完整的引用列表放在quotes XML标记中。如果此文档中没有看起来与此问题相关的引用,请说“我找不到任何相关引用”。
第二步
然后我们可以将Claude给我们的引用(包括quotes XML标记)替换为另一个Prompt。
Human: 我希望使用文档和文档中相关引用来回答问题“QUESTION”。
这是文档,包含在document XML标签中:
这里是最相关于问题“QUESTION”的文档直接引用:QUOTES
请使用这些引用来构建“QUESTION”的答案,就像直接回答该问题一样。确保答案准确,不包含任何文档或引用不直接支持的信息。
Tip6 确保Claude理解指令
确定Claude是否理解指示的最佳方法是询问Claude本身。
Human:我将给一个句子,需要告诉我它包含多少次“apple”这个词。例如,如果我说“我想要一个苹果”,那么答案是“1”,因为这个词只出现了一次。在回答之前,可以进行推理或解释任何想要的内容,但请确保在最后,的答案以方括号的形式只包含最终答案,如此:[1]。
理解这些指示吗?
Claude会回答:
是的,我理解了。对于给定的句子,我应该计算“apple”这个词在句子中出现的次数,并将计数作为我的响应放在方括号中。例如,给定输入“I would like an apple”,我的响应应该是“[1]”。
Tip7 要求Claude重写
如果Claude没有给出你想要的答案,让他再生成一遍。
Human:这是一段文本:
我想让使用以下指示重写它:
请将的重写放在rewrite标记中。
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
Quizbot.Ai是一个可帮助学生或学习者创建测验的网站。您可以使用 Quizbot 来测试学生对各种主题的知识、技能掌握和兴趣程度。