实测百度iRAG技艺：大模子终于知说念怎样去掉“AI味儿”了

栏目分类

热点资讯

音尘称亚马逊正确立视频 AI 模子，减少对 Anthropi

云鲸智能专注细分赛说念——镌脾琢肾创新品

加拿大竞争局告状谷歌指其在线告白存在反竞争活动

中信建投：泛科技、存量更新与出海是机械行业改日发展的三大标的

宝信软件新注册《宝信业务相接性监控软件V1.0》等8个项见解

你的位置：科技前沿网 > 新兴技术 > 实测百度iRAG技艺：大模子终于知说念怎样去掉“AI味儿”了

新兴技术

实测百度iRAG技艺：大模子终于知说念怎样去掉“AI味儿”了

发布日期：2024-12-09 14:56 点击次数：136

实测百度iRAG技艺：大模子终于知说念怎样去掉“AI味儿”了

出品｜三言Pro 作家｜DorAemon

本日，2024百度宇宙大会在上海举办，百度首创东说念主李彦宏在会上发表了题为《诳骗来了》的演讲。

在会上，李彦宏谈到往日24个月关于大模子行业而言，最大的变化是“大模子基本上排斥了幻觉”，禀报问题的准确性大大的栽植了。 “让AI从一册隆重的瞎掰八说念变得可用，可被信托。”

李彦宏在会上先容了百度最新的iRAG技艺，依托该技艺，可以让AI大模子文生图功能准确性大增，不再有“幻觉”，也便是说，AI制作的图片依然不再有“AI味儿”了。

其实李彦宏对AI大模子的评价口舌常到位的，AI文生图的“AI味儿重”也曾闹出不有数笑，到现时依然进化到解脱“AI味儿”了。

也曾“图划分题”

如今用iRAG排斥模子幻觉

谨记客岁国内大模子发布之后，文生图功能赶紧诱惑了一批用户，然而也很快成为网友簸弄对象。

全球为什么簸弄呢，因为那期间大模子对用户“文生图”的要道词分解是真从“字面兴味”上领会的。

如若不说上头这五张图的正确谜底，或许全球很难猜得出这些图到底抒发的是什么兴味。而一朝知说念了“谜底”，会坐窝“笑喷”。

上头这五张图是彼时大模子画的锤子手机、皋比鸡蛋、计上心来、鱼香肉丝和驴肉火烧。

除了上述这类比拟“逗乐”的问题外，AI文生图家具也时常会犯一些知识性造作。比如条目大模子生成一张天坛图片，但大模子给出的适度是一座四层形似天坛的图片，而天坛实质上唯独三层。

这便是AI文生图的“AI味儿”。

但在笔者看来，最运转大模子文生图出现这么令东说念主啼笑王人非的适度，滥觞讲解其是真“我方分解、我方生成”，而非肤浅罪过的复制网罗内容；其次，这些问题跟着家具进化也取得建造，以文心大模子为代表的国产大模子正在束缚进化。

百度宇宙2024上，百度认真发布iRAG技艺，即image based RAG检索增强文生图技艺。采选该技艺的文生图才智不仅不再犯上头这种“搞笑造作”，更是在生成特定物品、生成特定东说念主物与任性配景辘集的图片，比如“某东说念主物在某地点作念某事”。iRAG所生成的图片是真是、无模子幻觉的，准确性高，莫得“AI味儿”。

那么，领有更强文生图才智的文小言，实质服从怎样呢？笔者决定切身测试，况兼也尝试了其他两种不同大模子家具进行肤浅对比。

测试经过中，包括文心一言在内的三个大模子使用的要道词均一致，只对比不同大模子文生图适度区别。

iRAG技艺实质测试：准确率卓绝高

为了或者取得愈加真是的测试适度，笔者决定让不同大模子生成十张图，然后对比适度互异。

1. 让大模子生成一张马斯克在吃蛋糕的图片。

先来看文心一言的适度，文心一言提供了两张图片，滥觞这两张图片中东说念主物为马斯克的特征卓绝多，可以说一眼就能看出是马斯克；一张中马斯克身穿西服，手里拿着蛋糕；另一张中则是马斯克身着T恤，双手端着盛有蛋糕的盘子。不管哪张，都准确无误。

另一款大模子家具，这里叫“大模子A”吧，一次给出了三张“马斯克吃蛋糕的图片”。可以看出，大模子A在特定东说念主物描述上，天然也或者看出是马斯克，但并莫得那么应承；此外，还存在一些造作，有一张图片中，“马斯克”手抓蛋糕的姿势很“诡异”，而且指头长度显着划分。

再看今天测试的第三个大模子的适度，这里称之为“大模子B”吧。大模子B画的马斯克与马斯克真东说念主进出甚远，更别提其手抓蛋糕的手指画错。

2. 生成一张安妮海瑟薇吃炸酱面的图

文心一言生成了两张安妮海瑟薇吃炸酱面的图片，一样，两张图中海瑟薇的细节特征拉满，炸酱面、东说念主物手部等也都准确；

大模子A则连气儿生成四张图片，其中，有一张面部不很像海瑟薇本东说念主；其余三张天然也能准确画出海瑟薇，但在东说念主物手部细节、餐具细节上仍有造作。

大模子B如故满盈无法准确画出海瑟薇形象，而且面碗看上去也过于庞杂。

3. 生成一张霍金在篮球场打麻将的图片

这个题目笔者以为是比拟“狡诈”的，因为“元素过多”。先来看文心一言生成的两张图中，可以说正确率在90%，唯一造作则是霍金“莫得轮椅”，除此以外，东说念主物形象、篮球场、打麻将这些细节都取得体现。

而大模子A此次属于“澈底翻车”，不仅莫得准确生成霍金的外貌，在处置麻将桌上造作百出。

大模子C的适度只可说“轮椅”是正确的，东说念主物形象和麻将牌摆放才智都不准确。

4. 生成一张苹果CEO库克在天坛骑车的图片

文心一言生成的两张图中，可以显着看出东说念主物具有库克特征，同期配景也有天坛以及天坛式建筑。但库克的面部细节还欠点兴味；

而大模子A生成的四张图中，具有显着库克特征的唯唯独张，其余三张东说念主物形象偏差较大；而且骑自行车腿部细节有问题。

大模子C则再次无法生成指定东说念主物，且骑自行车的腿部细节造作。

5. 生成一张乔布斯在责任的图片。

文心一言生成的两张乔布斯责任图基本上莫得逻辑造作，东说念主物形象也比拟准确，唯一问题可能是画中电脑屏幕清晰的系统“并非Mac OS”。

而大模子A给出的四张图中，要么东说念主物形象欠点兴味，要么则是对电脑处置存在显着造作；

大模子B的“乔布斯”满盈仅仅个生分白东说念主老东说念主。

6. 生成一张东方明珠在深山里的图

文心一言对文生图条目比拟严谨，不仅体现出东方明珠电视塔在深山的办法，同期也比拟相宜逻辑地模式出电视塔的地基等信息。

而大模子A给出的四张图中，则嗅觉比拟“生硬”，有点强行将电视塔PS到山林里的嗅觉，同期部分图中东方明珠电视塔还存在细节造作。

而大模子B天然体现了深山元素，然而却满盈将东方明珠电视塔模式造作。

7. 生成一张鱼尾狮在沙漠里的图

嗅觉这个条目对文心一言来说“举手之劳”，不仅体现了沙漠元素，而且对鱼尾狮这尊雕镂也模式正确；

这里把大模子A、B放沿路说，因为这两个大模子均体现了沙漠，然而却都把鱼尾狮画错了。

8. 生成一张天坛在海边的图。

文心一言模式的天坛在海边图片中，细节如故很可以的，尤其是处置建筑与水交代场所。

而大模子A生成的四张图中，天然也或者比拟准确模式出天坛和海的元素，然而也存在把天坛三层建筑画成两层情况。

大模子B干脆把天坛“压扁”……

9.生成一张福建土楼出现时当代都市里的图

文心一言对福建土楼以及当代都市的分解准确率都很高，细节部分也都可以；

大模子A生成的四张图中，也基本准确的完成笔者条目，唯唯独张近景建筑嗅觉“奇怪”。

而大模子B的图片则满盈把土楼画成肖似“天坛”了。

10. 生成一张甄嬛玩手机的图

这个题目其实挺挑升想，“甄嬛”历史上并不存在，然而有其原型东说念主物，即清朝孝圣宪皇后；是以“甄嬛”的形象关于众人来说其实来自电视剧《甄嬛传》，那便是演员孙俪的形象；此外，《甄嬛传》还有原著演义，从演义角度来说，每个东说念主心中的“甄嬛”都不一样。

可以看出，文心一言的“甄嬛”是按照孙俪上演的形象为基础，笃信亦然许多看过电视剧《甄嬛传》网友的“第一聘请”；同期，文心一言的图片在细节处置准确率卓绝高。

大模子A则满盈提供了不同的甄嬛形象，并莫得参考孙俪，不外，大模子A的图片中，存在许多手指造作；

大模子B的甄嬛也一样存在手指细节造作，同期手机也有些“一眼假”。

百度要作念数百万“超等灵验”的诳骗

通盘测试体验下来，说真话，笔者委果被iRAG惊艳到。几个大模子文生图功能对比，文心一言对用户的提醒分解才智最佳，出图正确率亦然最高的。

而文心一言或者率先，天然是基于百度刚劲的AI才智，而且以搜索起家的百度在这方面更是有先天不足的上风。

百度的iRAG技艺或者将百度搜索的亿级图片资源和刚劲的基础模子才智相辘集，就可以生成各式超真是的图片，举座服从远远跨越文生图原生系统，去掉了AI味儿，而且老本很低。iRAG具备无幻觉、超真是、没老本、立等可取等性情。

在今天的测试中，文心一言对特定物品、特定东说念主物领会才智高，同期得出的适度也莫得“变形的手指”、“诡异的物品”这种充满“AI味儿”的情况。

再回到本文起首提到的五张客岁“闹见笑”的AI成图，如若让现时的文心一言从头生成一次，适度会是什么呢？

锤子手机不再是“真锤子”、皋比鸡蛋不再是“老虎体式的蛋”、计上心来不再是字面兴味上的“东说念主和竹子”，鱼香肉丝和驴肉火烧也都是好意思食形象……今天的大模子满盈不会再犯也曾的“搞笑造作”，不仅或者准确分解用户输入词语，而且生成的图片如若不看水印满盈认不出是AI作念的。

笔者唾手用大模子A试了一下让AI生成“计上心来”图片，适度这个模子其实如故从字面兴味上分解，给出的是东说念主物和竹子两个元素，并不像文心一言一样或者分解谚语本意。

大模子的文生图才智是AI诳骗的很小一个缩影，但同期这个功能或者带来的坐蓐力栽植是庞杂的。小到凡俗自媒体责任者的图文裁剪，大到上市公司宣传海报制作，大模子或者显耀裁减责任老本。而这一切都要成立在AI文生图诳骗“好用、能用”的基础上。

从文生图诳骗拓展来看，越来越多的AI诳骗落地才能真是兴味让“AI时间”惠及到通盘东说念主。是以，发展AI诳骗其实比“卷大模子”更进军。

李彦宏对大模子的不雅点亦然一以贯之的，他依然不啻一次指出，“卷诳骗”才是大模子发展的标的。其实李彦宏的不雅点卓绝正确，诳骗越多才能使得大模子愈加普惠化，不然仅仅无根之木，难以长期发展。

在今天的百度宇宙大会上，李彦宏称“咱们行将迎来AI诳骗的群星醒目时刻”，他还再次强调“超等颖悟”的诳骗比只看DAU的“超等诳骗”更进军，只消对产业、对诳骗场景或者产生大的增益，举座价值就比移动互联网要大多了。

现时，文心智能体平台依然诱惑15万家企业和80万名拓荒者参与，粉饰诳骗场景丰富，涵盖制造、动力、交通、政务、金融、汽车、讲解、互联网等广宽行业。李彦宏称，“百度不是要推出一个‘超等诳骗’，而是要束缚地匡助更多东说念主、更多企业打造出数百万‘超等灵验’的诳骗。”

上一篇：奥比中光：公司最新dToF激光雷达传感器芯片已已毕小批量客户送样

下一篇：苹果的内存是金子作念的？M4系列Mac mini存储方面10个要津信息点