阿里通义千问全新视觉默契模子 Qwen2.5-VL 开源

栏目分类

热点资讯

一文读懂：关于AI基建产业链各措施，DeepSeek利好哪些

空气开关跳闸怎样办？详备分析与实用指南！

AI行业大佬：6个月前就被DeepSeek惊艳，这只会加大G

赛说念Hyper | Meta Q4功绩暴涨：全年本钱开支激

Anthropic野心为Claude AI引入双向语音形状及

你的位置：科技前沿网 > 数字趋势 > 阿里通义千问全新视觉默契模子 Qwen2.5-VL 开源

数字趋势

阿里通义千问全新视觉默契模子 Qwen2.5-VL 开源

发布日期：2025-03-08 15:46 点击次数：177

阿里通义千问全新视觉默契模子 Qwen2.5-VL 开源

IT之家 1 月 28 日音问，阿里通义千问官方当天发文秘书，开源全新的视觉默契模子 Qwen2.5-VL——Qwen 模子眷属的旗舰视觉讲话模子，推出了 3B、7B 和 72B 三个尺寸版块。

IT之家附 Qwen2.5-VL 的主要特色如下：

视觉默契：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和虫豸，还或者分析图像中的文本、图表、图标、图形和布局。

代理：Qwen2.5-VL 平直行动一个视觉 Agent，不错推理并动态地使用器具，初步具备了使用电脑和使用手机的才气。

默契长视频和捕捉事件：Qwen2.5-VL 或者默契跳跃 1 小时的视频，何况此次它具备了通过精确定位干系视频片断来捕捉事件的新才气。

视觉定位：Qwen2.5-VL 不错通过生成 bounding boxes 或者 points 来准细则位图像中的物体，并或者为坐标和属性提供巩固的 JSON 输出。

结构化输出：关于发票、表单、表格等数据，Qwen2.5-VL 补助其本色的结构化输出，惠及金融、营业等边界的足下。

据官方先容，在旗舰模子 Qwen2.5-VL-72B-Instruct 的测试中，它在一系列涵盖多个边界和任务的基准测试中推崇出色，包括大学水平的问题、数学、文档默契、视觉问答、视频默契和视觉 Agent。Qwen2.5-VL 在默契文档和图表方面具有上风，何况或者行动视觉 Agent 进行操作，而无需特定任务的微调。

另外，在较小的模子方面，Qwen2.5-VL-7B-Instruct 在多个任务中超过了 GPT-4o-mini，而 Qwen2.5-VL-3B 行动端侧 AI 的后劲股，超过了之前版块 Qwen2-VL 的 7B 模子。

阿里通义千问官方示意，与 Qwen2-VL 比较，Qwen2.5-VL 增强了模子对技术和空间表率的感知才气，并进一步简化了累积首构以提高模子效果。后续将进一步提高模子的问题料理和推理才气，同期整合更多模态，使模子变得愈加智能，并向或者处理多种输入类型和任务的抽象万能模子迈进。

上一篇：英媒：DeepSeek最新开源模子将推进东谈主工智能技能讹诈

下一篇：破28亿元！2025春节档电影总票房再转变高