Google发表了一篇论文,介绍了一种新型的模型窃取攻击方法,这种方法能够从像OpenAI的ChatGPT或Google的PaLM-2这样的黑箱生产语言模型中提取精确、重要信息。
这种方法仅需不到20美元,就能攻击并提取出OpenAI的ada和babbage语言模型的整个投影矩阵。即使是那些设计为难以从外部获取内部信息的“黑箱”模型,也可以通过精心设计的查询被部分“解密”。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
Waifu2x是一款强大的图像增强和质量改进工具,专为动漫风格的艺术和照片量身定制。