沈向洋官宣通用视觉大模子!无需提醒,就能识别万物
发布日期:2024-12-20 16:07 点击次数:100
白小交 发自 凹非寺
量子位 | 公众号 QbitAI
无需用户提醒,AI就不错识别万物!
何况精度更高、速率更快。
IDEA参谋院创院理事长沈向洋官宣IDEA参谋院最新截止:通用视觉大模子DINO-X。
它已毕视觉任务大一统,救济千般开导天下感知和主义理撤职务,包括灵通天下对象检测与分割、短语定位、视觉提醒计数、姿态规划、无提醒对象检测与识别、密集区域字幕等。
这背后获利于,他们构建了跨越一亿高质料样本的大型数据集Grounding-100M。
与之前DINO家眷中Grounding DINO 1.5访佛,DINO-X 也分为DINO-X Pro模子和DINO-X Edge模子。
前者可为千般场景提供更强的感知才调,后者过程优化,推理速率更快,更相宜部署在角落修复上。
实验截止标明,DINO-X Pro 模子在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试等差异获取了 56.0 AP、59.8 AP和 52.4 AP 的成绩。
尤其是在 LVIS-minival 和 LVIS-val 这两个悲惨类别的基准测试中已毕新SOTA——
差异获取了 63.3 AP 和 56.5 AP 的成绩,齐比之前的SOTA性能提高了 5.8 AP。
这一截止标明,它在识别长尾物体方面的才调有了显赫提高。
在灵通天下,AI识别万物
转头来看,DINO-X主要有四个方面的特质。
最初即是全面检测,险些可识别所有这个词物体。DINO-X称得上圈套今业界检测最全的通用视觉模子,以致无需用户提醒。
然后是泛化和通用性。在面临未见过的物体或环境时,模子仍能保捏高水平的检测性能。
细粒度主义融会:DINO-X通过融合多个视觉任务,已毕了千般化输出,包括领域框、分割掩码、要道点和描述文本,提高了模子在复杂场景下的融会才调。
多任务感知与融会:DINO-X整合了多个感知头,救济包括分割、姿态规划、区域描述和基于区域的问答在内的多种区域级别任务,让感知到融会逐步成为了现实。
长尾主义检测优化:为了救济长尾主义的检测任务,DINO-X不仅救济文本提醒和视觉提醒,还救济过程视觉提醒优化的自界说提醒。
跟之前的版块 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro比拟,这次通用视觉大模子DINO-X 进一步增强了讲话融会才调,同期在密集物体检测场景中浮现出色。
奈何作念到?
DINO-X可接受文本提醒、视觉提醒和自界说提醒,并能同期生成从毛糙的暗示(如边框)到精采的细节(包括遮罩、要道点和对象标题)等千般输出。
DINO-X Pro的中枢架构,与Grounding DINO 1.5访佛,讹诈事前老到好的 ViT 模子算作主要的视觉主干,并在特征索取阶段给与了深度早期交融计策。
但不同的是,他们扩大了DINO-X Pro在输入阶段的提醒救济,除了文本,还救济视觉提醒和自界说提醒,以得志包括长尾物体在内的千般检测需求。
而关于DINO-X Edge版块,他们讹诈 EfficientViT算作高效特征索取的主干,并给与了访佛Transformer编码器-解码器架构。
此外,为了提高 DINO-X Edge 模子的性能和狡计效能,他们还对模子结构和老到本领作念了几个方面的矫正。
更强的文本提醒编码器,给与了与pro模子调换的 CLIP 文本编码器。
学问提真金不怕火:从 Pro 模子中提真金不怕火学问,以提 Edge 模子的性能。具体来说,团队讹诈基于特征的蒸馏和基于反应的蒸馏,差异诊治Edge模子和 Pro模子之间的特征和量度对数。
矫正FP16推理:给与浮点乘法归一化本领,在不影响精度的情况下将模子量化为 FP16。
领有了对灵通天下的视觉感知
DINO-X的万物识别才调,让其领有了对灵通天下(Open World)的视觉感知,不错放浪应酬果真天下中的广漠不祥情趣和灵通环境。
IDEA参谋院创院理事长沈向洋提到了具身智能、大范围多模态数据的自动标注、视障东谈主士管事等这几个场景。
对具身智能而言,开导环境感知和融会是中枢才调,这其中的视觉感知更是机器和物理天下交互的基础。近期,聚焦东谈主居环境具身智能中枢本领攻关的福田实验室认真挂牌,该实验室认真由IDEA参谋院与腾讯协调组建,戮力于打造最前沿的具身智能改进平台。
多模态模子频繁需要处理多量的图片并生成图文对,而仅依靠东谈主工标注的神色不仅耗时、本钱高,何况在面临海量数据时难以保险标注的一致性和效能。DINO-X的万物识别才调,不错匡助标注公司快速完成强大量的高质料图像标注或者为标注员提供自动化的扶植截止,从而镌汰手工标注的责任量。
视障东谈主士零丁性和活命质料的提高对信息获取与感知等方面有着极高的条件,DINO-X的万物识别才调恰逢当时地为助盲器用开导带来福音,为视障东谈主士的改日活命带来好意思好但愿。
在自动驾驶、智能安防、工业检测等领域,DINO-X使得系统粗略应酬千般复杂场景,识别出传统模子难以检测的物体,为产业升级和社会发展注入新的活力。
IDEA参谋院一系列视觉大模子,为处分业务场景现有的小模子繁密、爱戴迭代本钱时髦、准确率不及等问题,提供了可行的有野心。
△Dino-X基座大模子零样本检测才调,为弘大中小企业客户提供方便高效的计数和标注器用
当今,IDEA参谋院与多家企业蚁集开展视觉大模子及应用场景的探索参谋责任,在视觉大模子的落地点面取得了践诺性进展。
一方面,有别于市集上的以讲话为基础的多模态大模子基于全图融会的步伐, 通过在物体级别的融会上加入讲话模块优化大模子幻觉问题。
另一方面结合自研的“视觉提醒优化”步伐,无需更变模子结构,无谓再行老到模子,已毕小样本下的场景化定制。
△IDEA参谋院通用视觉大模子行业平台架构
论文并吞: https://arxiv.org/abs/2411.14347
官网并吞:https://deepdataspace.com/home
— 完 —
量子位 QbitAI · 头条号签
热心咱们,第一时间获知前沿科技动态约