首页 > Ai资讯 > Ai日报 > Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

发布时间:2024年05月18日

Google 在I/O大会上发布了一系列更新,包括对 Gemini 1.5 Pro 的改进、新的 Gemini 1.5 Flash 模型、Gemma 系列的新模型以及 Gemini API 的新功能和定价选项。

Gemini 1.5 Pro 改进和 1.5 Flash 模型

Gemini 1.5 Pro

  • 质量提升:针对翻译、编程、推理等关键用例进行了质量改进,使其能够处理更广泛和复杂的任务。
  • 100 万标记上下文窗口:支持长上下文的输入,允许在单个请求中处理更多的信息。
  • 多模态支持:能够处理文本、图像、音频和视频等多种输入形式。
  • 200 万标记上下文窗口:在私人预览中提供,用户可以通过 Google AI Studio 或 Vertex AI 加入候补名单获取访问权限。

Gemini 1.5 Flash

  • 简介:Gemini 1.5 Flash是一个轻量级模型,旨在优化速度和效率。它适用于高频、大量任务,并在API中是最快的Gemini模型。
  • 特点
    • 具备突破性的长上下文窗口(1百万个令牌),适用于多模态推理。
    • 通过“蒸馏”过程从1.5 Pro中提取最重要的知识和技能,转移到更小、更高效的模型中。
  • 应用:摘要生成、聊天应用、图像和视频字幕生成、长文档和表格的数据提取等。
  • 优化响应时间:适用于需要快速响应的高频任务。
  • 100 万标记上下文窗口:与 1.5 Pro 相同,支持长上下文的输入。
  • 多模态支持:同样支持文本、图像、音频和视频等多种输入形式。
  • 全球可用:这两个模型已经在 200 多个国家和地区提供预览,将于 6 月正式推出。

Gemini Nano

  • 多模态输入:Gemini Nano现在不仅支持文本输入,还支持图像输入。这意味着模型可以通过文字、图像、声音和口语来理解世界。
  • 平台支持:首先在Pixel设备上推出,利用设备的多模态能力提升用户体验。

以下是关于Google AI在Android上的新功能和改进的详细介绍。

Circle to Search 和作业帮助

  • 功能:Circle to Search通过简单的手势,可以帮助用户搜索手机上的任何内容,而无需切换应用。
  • 新能力:现在可以帮助学生解决作业问题,提供逐步解决物理和数学问题的指导。未来将扩展到更复杂的问题,包括符号公式、图表等。
  • 现状:Circle to Search已在超过1亿台设备上使用,计划到年底将覆盖量翻倍。

Gemini on Android 更新

  • 功能:Gemini是一个新的AI助手,利用生成式AI帮助用户提升创造力和生产力。
  • 改进:增强了对屏幕内容和应用上下文的理解。用户可以在使用应用时直接调用Gemini,如拖放生成的图像到Gmail或Google Messages,或在YouTube视频中查找特定信息。
  • 高级功能:Gemini Advanced允许用户在PDF中快速找到答案,无需滚动多页。

Gemini Nano的全多模态能力

  • 功能:Android是第一个内置设备基础模型的移动操作系统。Gemini Nano的多模态功能即将推出,首先在Pixel设备上应用。
  • 能力:不仅能处理文本输入,还能理解图像、声音和口语等上下文信息。

TalkBack的更清晰描述

电话诈骗检测警报

  • 功能:通过Gemini Nano在通话过程中检测常见的诈骗对话模式,实时发出警报,如银行代表要求紧急转账或提供个人信息。
  • 隐私:此功能在设备上进行处理,确保对话隐私。

新的开发者功能和定价选项

新开发者功能

  • 视频帧提取:允许从视频中提取帧,用于进一步的分析和处理。
  • 并行函数调用:支持同时返回多个函数调用结果,提高处理效率。
  • 上下文缓存:从 6 月起,开发者可以将大文件或长提示仅发送一次给模型,提高长上下文的使用效率和经济性。

定价选项

  • 免费访问:在符合条件的地区,通过 Google AI Studio 免费提供 Gemini API 访问。
  • 按需付费服务:推出新的按需付费服务,支持更高的速率限制,使得开发者可以根据需要灵活使用。
  • 详细价格情况

Gemma 系列的新增模型

PaliGemma

  • 视觉语言开放模型:优化用于图像字幕生成、视觉问答和其他图像标注任务。
  • 预训练变体:加入了 CodeGemma 和 RecurrentGemma 等预训练的 Gemma 变体,提供更多选择。

Gemma 2

  • 下一代 Gemma 模型:采用全新架构设计,提供突破性的性能和效率,27亿参数的Gemma 2在性能上可与Llama 3 70B媲美。
  • 高效运行:能够在在NVIDIA的GPU或单个TPU主机上高效运行,使更多用户能够以更低的成本部署,适用于开发者和研究人员。
  • 6 月推出:将于 6 月正式发布,满足开发者对更大且易用模型的需求。

详细:https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。