Google 在I/O大会上发布了一系列更新,包括对 Gemini 1.5 Pro 的改进、新的 Gemini 1.5 Flash 模型、Gemma 系列的新模型以及 Gemini API 的新功能和定价选项。
Gemini 1.5 Pro 改进和 1.5 Flash 模型
Gemini 1.5 Pro
- 质量提升:针对翻译、编程、推理等关键用例进行了质量改进,使其能够处理更广泛和复杂的任务。
- 100 万标记上下文窗口:支持长上下文的输入,允许在单个请求中处理更多的信息。
- 多模态支持:能够处理文本、图像、音频和视频等多种输入形式。
- 200 万标记上下文窗口:在私人预览中提供,用户可以通过 Google AI Studio 或 Vertex AI 加入候补名单获取访问权限。
Gemini 1.5 Flash
- 简介:Gemini 1.5 Flash是一个轻量级模型,旨在优化速度和效率。它适用于高频、大量任务,并在API中是最快的Gemini模型。
- 特点:
- 具备突破性的长上下文窗口(1百万个令牌),适用于多模态推理。
- 通过“蒸馏”过程从1.5 Pro中提取最重要的知识和技能,转移到更小、更高效的模型中。
- 应用:摘要生成、聊天应用、图像和视频字幕生成、长文档和表格的数据提取等。
- 优化响应时间:适用于需要快速响应的高频任务。
- 100 万标记上下文窗口:与 1.5 Pro 相同,支持长上下文的输入。
- 多模态支持:同样支持文本、图像、音频和视频等多种输入形式。
- 全球可用:这两个模型已经在 200 多个国家和地区提供预览,将于 6 月正式推出。
Gemini Nano
- 多模态输入:Gemini Nano现在不仅支持文本输入,还支持图像输入。这意味着模型可以通过文字、图像、声音和口语来理解世界。
- 平台支持:首先在Pixel设备上推出,利用设备的多模态能力提升用户体验。
以下是关于Google AI在Android上的新功能和改进的详细介绍。
Circle to Search 和作业帮助
- 功能:Circle to Search通过简单的手势,可以帮助用户搜索手机上的任何内容,而无需切换应用。
- 新能力:现在可以帮助学生解决作业问题,提供逐步解决物理和数学问题的指导。未来将扩展到更复杂的问题,包括符号公式、图表等。
- 现状:Circle to Search已在超过1亿台设备上使用,计划到年底将覆盖量翻倍。
视频播放器00:0000:00
Gemini on Android 更新
- 功能:Gemini是一个新的AI助手,利用生成式AI帮助用户提升创造力和生产力。
- 改进:增强了对屏幕内容和应用上下文的理解。用户可以在使用应用时直接调用Gemini,如拖放生成的图像到Gmail或Google Messages,或在YouTube视频中查找特定信息。
- 高级功能:Gemini Advanced允许用户在PDF中快速找到答案,无需滚动多页。
Gemini Nano的全多模态能力
- 功能:Android是第一个内置设备基础模型的移动操作系统。Gemini Nano的多模态功能即将推出,首先在Pixel设备上应用。
- 能力:不仅能处理文本输入,还能理解图像、声音和口语等上下文信息。
TalkBack的更清晰描述
- 更新:Gemini Nano的多模态功能将帮助视觉障碍用户获得更清晰的图像描述,无论是家庭照片还是网购的衣物细节。
- 优势:这些描述快速且无需网络连接。
视频播放器00:0000:00
电话诈骗检测警报
- 功能:通过Gemini Nano在通话过程中检测常见的诈骗对话模式,实时发出警报,如银行代表要求紧急转账或提供个人信息。
- 隐私:此功能在设备上进行处理,确保对话隐私。
新的开发者功能和定价选项
新开发者功能
- 视频帧提取:允许从视频中提取帧,用于进一步的分析和处理。
- 并行函数调用:支持同时返回多个函数调用结果,提高处理效率。
- 上下文缓存:从 6 月起,开发者可以将大文件或长提示仅发送一次给模型,提高长上下文的使用效率和经济性。
定价选项
- 免费访问:在符合条件的地区,通过 Google AI Studio 免费提供 Gemini API 访问。
- 按需付费服务:推出新的按需付费服务,支持更高的速率限制,使得开发者可以根据需要灵活使用。
- 详细价格情况
Gemma 系列的新增模型
- 视觉语言开放模型:优化用于图像字幕生成、视觉问答和其他图像标注任务。
- 预训练变体:加入了 CodeGemma 和 RecurrentGemma 等预训练的 Gemma 变体,提供更多选择。
Gemma 2
- 下一代 Gemma 模型:采用全新架构设计,提供突破性的性能和效率,27亿参数的Gemma 2在性能上可与Llama 3 70B媲美。
- 高效运行:能够在在NVIDIA的GPU或单个TPU主机上高效运行,使更多用户能够以更低的成本部署,适用于开发者和研究人员。
- 6 月推出:将于 6 月正式发布,满足开发者对更大且易用模型的需求。
详细:https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/
广告人动向和创意奖项展示报道