由前OpenAI高管离职后创立的人工智能公司Anthropic近日发布了其全新模型Claude 2,该模型在性能、响应长度以及通过API和公共测试网站的可访问性等方面都有所提升。用户对Claude的对话能力、清晰的解释、生成有害输出的可能性降低以及与前一代模型相比的记忆力提升等方面给予了高度评价。
值得注意的是,Claude 2在编程、数学和推理任务方面的表现更佳。例如,它在Bar考试的多选题部分得分为76.5%,超过了前一代模型的73.0%。与申请研究生的大学生相比,Claude 2在GRE阅读和写作考试中的表现超过了90%的人,而在定量推理方面的表现与中位数申请者相当。
开发者希望Claude能够成为一个友好且热情的虚拟同事或个人助手,能够理解自然语言指令,协助完成各种任务。Claude 2的API对企业开放,价格与其前一代模型Claude 1.3相同。此外,美国和英国的个人用户已经可以使用测试版的聊天体验。
为了提高Claude模型的性能和安全性,开发者已经做出了努力。输入和输出的长度已经增加,用户可以在每个提示中输入多达100K的标记。这使得Claude能够处理大量的技术文档和书籍,并生成更长的文档,如备忘录、信件和故事,这些文档包含了数千个标记。
最新的模型Claude 2在编程技能方面有了显著的提升,在Codex HumanEval Python编程测试中得分为71.2%,而Claude 1.3的得分为56.0%。在GSM8k数学问题集中,Claude 2的得分为88.0%,而其前一代模型的得分为85.2%。未来的计划包括逐步部署Claude 2的能力改进。
在开发过程中,安全措施一直是重点,目标是减少有害和冒犯性的输出。内部的红队评估将Claude模型与一组代表性的有害提示进行比较,结合自动测试和手动检查。Claude 2在提供无害响应方面的效果是Claude 1.3的两倍。虽然没有任何模型能完全免疫于不良输出,但是已经采用了安全技术和广泛的红队测试,以提高输出的整体质量。
已经有几家企业开始使用Claude API,如Jasper和Sourcegraph等合作伙伴正在利用Claude 2的能力。Jasper是一个生成型AI平台,它强调了Claude 2与最先进模型的兼容性,用于各种用例,特别是在长篇幅、低延迟的应用中表现出色。Sourcegraph是一个代码AI平台,它将Claude 2的改进推理能力融入到他们的编程助手Cody中。Cody可以提供更准确的用户查询答案,同时通过多达100K的上下文窗口传达更多的代码库上下文。Claude 2在最新数据上的训练使Cody具备了对新框架和库的知识,使开发者能够更有效地构建软件。
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
Capsule是一个采用人工智能技术的视频编辑器,专为内容和营销团队设计。它可以帮助用户快速制作惊艳的视频,轻松协作,并保持品牌一致性。