无需参数打听！CMU用大模子自动优化视觉谈话指示词

栏目分类

热点资讯

怎样灵验使用CDN正式处事器进步网站安全与踏实性

Java绘制圆形图形教程：快速上手与技巧剖析

沈阳租直播用电脑房钱些许

服务文化丨泽州农商银行：智启厅堂新六合惠暖民生千万家

腾讯，大手脚！｜深商

你的位置：科技前沿网 > 创新应用 > 无需参数打听！CMU用大模子自动优化视觉谈话指示词 | CVPR’24

创新应用

无需参数打听！CMU用大模子自动优化视觉谈话指示词 | CVPR’24

发布日期：2024-12-05 14:49 点击次数：128

无需参数打听！CMU用大模子自动优化视觉谈话指示词 | CVPR’24

林之秋投稿

量子位 | 公众号 QbitAI

视觉谈话模子（如 GPT-4o、DALL-E 3）频繁领稀有十亿参数，且模子权重不公开，使得传统的白盒优化步伐（如反向传播）难以奉行。

那么，有莫得更松驰的优化步伐呢？

就在最近，卡内基梅隆大学（CMU）的探讨团队关于这个问题建议了一种革命的“黑盒优化”战术——

通过大谈话模子自动退换当然谈话指示词，使视觉谈话模子在文生图、视觉识别等多个卑鄙任务中得回更好的发扬。

这一步伐不仅无需涉及模子里面参数，还大幅进步了优化的生动性与速率，让用户即使莫得技艺配景也能松驰进步模子性能。

该探讨已被 CVPR 2024 汲取。

怎样作念到的？

大多数视觉谈话模子（如 DALL-E 3、GPT-4o 等）并未公开模子权重或特征镶嵌，导致传统依赖反向传播的优化方式不再适用。

不外，这些模子频繁向用户绽开了当然谈话接口，使得通过优化指示词来进步模子发扬成为可能。

关系词，传统的指示词工程严重依赖工程师的训戒和先验常识。

举例，为进步 CLIP 模子的视觉识别效果，OpenAI 破耗了一年时间采集了几十种灵验的指示词模板（如 “A good photo of a [class]”）。

一样，在使用DALL-E 3和Stable Diffusion等文生图模子时，用户通常也需掌捏大批指示词手段才能生成酣畅的收尾。

那么，有莫得替代东说念主类指示词工程师的步伐？

有的 CMU 团队建议了一种新战术：用 ChatGPT 等大谈话模子自动优化指示词。

像指示词工程师运用反应改良指示词一样，CMU 的步伐将正负反应交给 ChatGPT，以更高效地退换指示词，具体经过如图所示：

这种优化经过近似于机器学习中的“爬山法”（hill-climbing）战术，不同之处在于大谈话模子不错自动分析指示词发扬，从正负反应中找到最优改良标的。

探讨团队运用这一特质来更高效地优化指示词。这个经过不错用以下才智轮廓：

指示词驱动化：采集一批未经优化的驱动指示词。指示词排序：对面前指示词进行发扬评分，保留高分指示词，替换低分指示词。生成新指示词：通过大谈话模子，证据指示词的发扬生成新的候选指示词。

经过多轮迭代，最终复返得分最高的指示词行为优化收尾。

履行收尾

通过这一步伐，CMU 团队在无需东说念主类指示工程师参与的情况下，在多个小样本视觉识别数据集上取得了最好准确性，以致卓越了传统的白盒指示词优化步伐（如 CoOp）。

此外，该步伐在无需了解数据集骨子的前提下，自动捕捉到了卑鄙任务的视觉特质并将其融入指示词中，取得了更好的效果。

举例，在食品识别任务中，ChatGPT 自动将指示词退换为识别“各样化的好意思食和原料”，从而进步了模子的发扬。

探讨团队还证据了，通过 ChatGPT 黑盒优化得到的指示词不仅适用于单一模子架构，还能在不同模子架构（如 ResNet 和 ViT）之间泛化，而况在多种模子上发扬优于白盒优化得到的指示词。

这一系列实考证据，大谈话模子约略从指示词的性能反应中提真金不怕火出隐含的“梯度”标的，从而竣事无需反向传播的模子优化。

在文生图任务中的应用

CMU 团队进一步探索了该步伐在生成任务中的应用后劲。

在文本到图像生成（T2I）任务中，ChatGPT 约略自动优化指示词，从而生成更相宜用户需求的高质料图像。

举例，关于输入形容“一个动物预防着一个东说念主”，系统不错通过慢慢优化指示词来进步生成图像的准确性。

此外，这一步伐还适用于指示反演（Prompt Inversion）。

指示反演是一种证据现存图像反推生成模子输入指示词的技艺，简便来说，便是通过图像生成约略再现其特征的文本形容（指示词）。

探讨团队在复杂的文本到图像任务上进行了测试，收尾标明这一步伐仅需三轮指示词优化，就能显赫提高用户的酣畅度。

此外，探讨团队还指出，指示反演不错匡助用户快速定制特定的图像效果，举例“让这只狗造成直立姿势”或“让配景造成夜景”，从而生成相宜特定需求的图像。

CMU 团队暗意，建议的黑盒优化范式封闭了传统模子调优的摈弃，不仅在图像分类和生成任务中发扬出色，还展示了平庸的应用后劲。

这一步伐无需打听模子权重，仅通过“文本梯度”竣事精确优化，具备刚烈的延迟性。

将来，黑盒优化有望应用于及时监控、自动驾驶、智能医疗等复杂动态场景，为多模态模子的调优带来愈加生动高效的措置决议。

团队先容

团队的一作刘士弘（Shihong Liu）是卡内基梅隆大学的探讨生毕业生，曾任机器东说念主探讨所探讨员。

现在在北好意思Amazon 使命，郑刚烈型漫步式系统的臆测和大谈话模子驱动的 AI Agent 的缔造。

△刘士弘（Shihong Liu）

团队的共合并作林之秋（Zhiqiu Lin）是卡内基梅隆大学的博士探讨生，专注于视觉-谈话大模子的自动评估与优化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文，并曾荣获最好论文提名和最好短论文奖等。

△林之秋（Zhiqiu Lin）

Deva Ramanan训导是臆测机视觉范围的外洋着名学者，现任卡内基梅隆大学训导。

△Deva Ramanan训导

他的探讨涵盖臆测机视觉、机器学习和东说念主工智能范围，曾得回多项顶级学术荣誉，包括2009年的David Marr奖、2010年的PASCAL VOC毕生配置奖、2012年的IEEE PAMI后生探讨员奖、2012年《民众科学》评比的“十位了得科学家”之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖，以及因其代表性使命（如COCO数据集）得回的Koenderink奖。

此外，他的论文在CVPR、ECCV和ICCV上屡次得回最好论文提名及荣誉奖。他的探讨效果对视觉识别、自动驾驶、和东说念主机交互等应用产生了潜入影响，是该范围极具影响力的科学家之一。

CVPR’24论文畅达:

https://arxiv.org/abs/2309.05950

论文代码:

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

时势网站：

https://llm-can-optimize-vlm.github.io

— 完 —

量子位 QbitAI · 头条号签约

和顺咱们，第一时间获知前沿科技动态

上一篇：狂揽16亿大单！云天励飞：作念最懂大模子的边际计议居品及职业

下一篇：进入四季度海口国度高新区企业研发坐褥开启“冲刺跑”