首页 > Ai资讯 > Ai日报 > WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

发布时间:2024年05月18日

WebLlama 是一个研究项目,由 McGill University 的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理,这些代理基于 Llama-3 模型进行了优化和微调。

WebLlama基于 Meta AI最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化,使其能够有效处理与网页交互相关的复杂任务。

WebLlama 的性能在多个方面都优于 GPT-4V,特别是在与真实世界的网页浏览相关的任务上。

微调使用了名为WebLINX的数据集,该数据集包含超过100,000个网页导航和对话实例,每个实例都由专家注释人员收集和验证。为了训练这款模型,我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。

该模型现在已经可以在Hugging Face Model Hub上获取,模型名称为McGill-NLP/Llama-3-8B-Web。同时,用于训练和评估的数据也可以在Huggingface Hub上找到,数据集名称为McGill-NLP/WebLINX

主要功能

WebLlama 能够处理连续的对话,这允许用户通过多轮交流给代理提供指令,并在完成任务过程中获取反馈。代理能够与现代网页自动化框架如 Playwright 或 Selenium 集成,使其能在实际的浏览器环境中执行动作,如点击、滚动、填写表单等。

WebLlama 能够执行以下功能:

  1. 自动网页浏览:代理能够根据用户的指令自动浏览网页,执行搜索、导航和信息检索等任务。

  2. 交互对话:与用户通过自然语言进行交互,理解用户的指令并提供反馈。

  3. 执行网页操作:执行诸如点击链接、填写和提交表单等网页上的动作。

  4. 自动任务完成:在用户提供指令的情况下完成特定的任务,如预定酒店、购物或查找信息。

  5. 数据收集和应用:可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。

  6. 提高效率:帮助用户提高完成在线任务的效率,尤其是在多任务处理或需要快速反馈的场景中。

WebLINX评估基准

WebLlama 提供了一套评估体系:WebLINX,可以系统地评估代理在多种网页导航任务中的性能,包括简单的指令遵循和复杂的对话引导浏览。

WEBLINX 是一个大规模基准,包含 2300 个专家演示的 10 万次网络会话导航交互。我们的基准涵盖了 150 多个真实世界网站上的各种模式,可用于在不同场景中训练和评估代理。

  1. 基准测试:代理在特定的基准测试上进行评估,这些测试专门设计来衡量其在实际网页浏览任务中的表现。WebLlama使用的主要基准测试是WebLINX,它包含了真实世界的网页交互场景。

  2. 真实世界的场景:WebLINX基准测试包含多个现实场景的测试,例如访问新网站、探索新领域、在未见过的地理位置进行导航,以及用户无法看到屏幕时依赖对话的情况。

  3. 综合评估:在WebLINX基准测试中,代理的性能会在多个维度上进行评估,包括选择有用链接的能力、点击相关元素的准确度,以及形成对齐回应的质量。

  4. 定量指标:使用定量指标,如链接选择的准确性百分比(seg-F1)、点击相关元素的交叉比率(IoU),以及回应质量的字符准确率(chr-F1),来衡量性能。

  5. 横向比较:WebLlama的性能与其他先进模型如GPT-4进行对比,以突出其在特定任务上的优势。

WebLlama选择WebLINX作为首个基准测试的原因是,它不仅提供了用于训练的数据,还特别设计了四种真实世界的测试情境,这些情境能全面检验智能代理的适应性和泛化能力。这四种情境包括:

  1. 新网站:测试代理对从未访问过的网站的适应能力。
  2. 新领域:评估代理在面对新类型的网站内容时的表现。
  3. 未见过的地理位置:检查代理处理与特定地区相关网站的能力。
  4. 无法看屏幕的场景:模拟用户无法看到屏幕,完全依赖于与代理的对话来浏览网页的情境。

    代理控制浏览器,按照用户指令,通过多轮对话的方式解决现实世界中的任务,例如在Quandoo上寻找一家柏林的意大利餐厅并查询是否在某个时间能否订位

WebLINX涵盖了150个不同的网站,这些网站包括了各种常见的在线活动,如预订(booking)、购物(shopping)、写作(writing)、信息查询(knowledge lookup)以及更复杂的任务,比如操作电子表格。这种多样化的测试环境可以确保WebLlama不仅在训练环境中表现良好,而且能够在用户日常�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。