实测百度iRAG技艺:大模子终于知说念怎样去掉“AI味儿”了
发布日期:2024-12-09 14:56 点击次数:136
出品|三言Pro 作家|DorAemon
本日,2024百度宇宙大会在上海举办,百度首创东说念主李彦宏在会上发表了题为《诳骗来了》的演讲。
在会上,李彦宏谈到往日24个月关于大模子行业而言,最大的变化是“大模子基本上排斥了幻觉”,禀报问题的准确性大大的栽植了。 “让AI从一册隆重的瞎掰八说念变得可用,可被信托。”
李彦宏在会上先容了百度最新的iRAG技艺,依托该技艺,可以让AI大模子文生图功能准确性大增,不再有“幻觉”,也便是说,AI制作的图片依然不再有“AI味儿”了。
其实李彦宏对AI大模子的评价口舌常到位的,AI文生图的“AI味儿重”也曾闹出不有数笑,到现时依然进化到解脱“AI味儿”了。
也曾“图划分题”
如今用iRAG排斥模子幻觉
谨记客岁国内大模子发布之后,文生图功能赶紧诱惑了一批用户,然而也很快成为网友簸弄对象。
全球为什么簸弄呢,因为那期间大模子对用户“文生图”的要道词分解是真从“字面兴味”上领会的。
如若不说上头这五张图的正确谜底,或许全球很难猜得出这些图到底抒发的是什么兴味。而一朝知说念了“谜底”,会坐窝“笑喷”。
上头这五张图是彼时大模子画的锤子手机、皋比鸡蛋、计上心来、鱼香肉丝和驴肉火烧。
除了上述这类比拟“逗乐”的问题外,AI文生图家具也时常会犯一些知识性造作。比如条目大模子生成一张天坛图片,但大模子给出的适度是一座四层形似天坛的图片,而天坛实质上唯独三层。
这便是AI文生图的“AI味儿”。
但在笔者看来,最运转大模子文生图出现这么令东说念主啼笑王人非的适度,滥觞讲解其是真“我方分解、我方生成”,而非肤浅罪过的复制网罗内容;其次,这些问题跟着家具进化也取得建造,以文心大模子为代表的国产大模子正在束缚进化。
百度宇宙2024上,百度认真发布iRAG技艺,即image based RAG检索增强文生图技艺。采选该技艺的文生图才智不仅不再犯上头这种“搞笑造作”,更是在生成特定物品、生成特定东说念主物与任性配景辘集的图片,比如“某东说念主物在某地点作念某事”。iRAG所生成的图片是真是、无模子幻觉的,准确性高,莫得“AI味儿”。
那么,领有更强文生图才智的文小言,实质服从怎样呢?笔者决定切身测试,况兼也尝试了其他两种不同大模子家具进行肤浅对比。
测试经过中,包括文心一言在内的三个大模子使用的要道词均一致,只对比不同大模子文生图适度区别。
iRAG技艺实质测试:准确率卓绝高
为了或者取得愈加真是的测试适度,笔者决定让不同大模子生成十张图,然后对比适度互异。
1. 让大模子生成一张马斯克在吃蛋糕的图片。
先来看文心一言的适度,文心一言提供了两张图片,滥觞这两张图片中东说念主物为马斯克的特征卓绝多,可以说一眼就能看出是马斯克;一张中马斯克身穿西服,手里拿着蛋糕;另一张中则是马斯克身着T恤,双手端着盛有蛋糕的盘子。不管哪张,都准确无误。
另一款大模子家具,这里叫“大模子A”吧,一次给出了三张“马斯克吃蛋糕的图片”。可以看出,大模子A在特定东说念主物描述上,天然也或者看出是马斯克,但并莫得那么应承;此外,还存在一些造作,有一张图片中,“马斯克”手抓蛋糕的姿势很“诡异”,而且指头长度显着划分。
再看今天测试的第三个大模子的适度,这里称之为“大模子B”吧。大模子B画的马斯克与马斯克真东说念主进出甚远,更别提其手抓蛋糕的手指画错。
2. 生成一张安妮海瑟薇吃炸酱面的图
文心一言生成了两张安妮海瑟薇吃炸酱面的图片,一样,两张图中海瑟薇的细节特征拉满,炸酱面、东说念主物手部等也都准确;
大模子A则连气儿生成四张图片,其中,有一张面部不很像海瑟薇本东说念主;其余三张天然也能准确画出海瑟薇,但在东说念主物手部细节、餐具细节上仍有造作。
大模子B如故满盈无法准确画出海瑟薇形象,而且面碗看上去也过于庞杂。
3. 生成一张霍金在篮球场打麻将的图片
这个题目笔者以为是比拟“狡诈”的,因为“元素过多”。先来看文心一言生成的两张图中,可以说正确率在90%,唯一造作则是霍金“莫得轮椅”,除此以外,东说念主物形象、篮球场、打麻将这些细节都取得体现。
而大模子A此次属于“澈底翻车”,不仅莫得准确生成霍金的外貌,在处置麻将桌上造作百出。
大模子C的适度只可说“轮椅”是正确的,东说念主物形象和麻将牌摆放才智都不准确。
4. 生成一张苹果CEO库克在天坛骑车的图片
文心一言生成的两张图中,可以显着看出东说念主物具有库克特征,同期配景也有天坛以及天坛式建筑。但库克的面部细节还欠点兴味;
而大模子A生成的四张图中,具有显着库克特征的唯唯独张,其余三张东说念主物形象偏差较大;而且骑自行车腿部细节有问题。
大模子C则再次无法生成指定东说念主物,且骑自行车的腿部细节造作。
5. 生成一张乔布斯在责任的图片。
文心一言生成的两张乔布斯责任图基本上莫得逻辑造作,东说念主物形象也比拟准确,唯一问题可能是画中电脑屏幕清晰的系统“并非Mac OS”。
而大模子A给出的四张图中,要么东说念主物形象欠点兴味,要么则是对电脑处置存在显着造作;
大模子B的“乔布斯”满盈仅仅个生分白东说念主老东说念主。
6. 生成一张东方明珠在深山里的图
文心一言对文生图条目比拟严谨,不仅体现出东方明珠电视塔在深山的办法,同期也比拟相宜逻辑地模式出电视塔的地基等信息。
而大模子A给出的四张图中,则嗅觉比拟“生硬”,有点强行将电视塔PS到山林里的嗅觉,同期部分图中东方明珠电视塔还存在细节造作。
而大模子B天然体现了深山元素,然而却满盈将东方明珠电视塔模式造作。
7. 生成一张鱼尾狮在沙漠里的图
嗅觉这个条目对文心一言来说“举手之劳”,不仅体现了沙漠元素,而且对鱼尾狮这尊雕镂也模式正确;
这里把大模子A、B放沿路说,因为这两个大模子均体现了沙漠,然而却都把鱼尾狮画错了。
8. 生成一张天坛在海边的图。
文心一言模式的天坛在海边图片中,细节如故很可以的,尤其是处置建筑与水交代场所。
而大模子A生成的四张图中,天然也或者比拟准确模式出天坛和海的元素,然而也存在把天坛三层建筑画成两层情况。
大模子B干脆把天坛“压扁”……
9.生成一张福建土楼出现时当代都市里的图
文心一言对福建土楼以及当代都市的分解准确率都很高,细节部分也都可以;
大模子A生成的四张图中,也基本准确的完成笔者条目,唯唯独张近景建筑嗅觉“奇怪”。
而大模子B的图片则满盈把土楼画成肖似“天坛”了。
10. 生成一张甄嬛玩手机的图
这个题目其实挺挑升想,“甄嬛”历史上并不存在,然而有其原型东说念主物,即清朝孝圣宪皇后;是以“甄嬛”的形象关于众人来说其实来自电视剧《甄嬛传》,那便是演员孙俪的形象;此外,《甄嬛传》还有原著演义,从演义角度来说,每个东说念主心中的“甄嬛”都不一样。
可以看出,文心一言的“甄嬛”是按照孙俪上演的形象为基础,笃信亦然许多看过电视剧《甄嬛传》网友的“第一聘请”;同期,文心一言的图片在细节处置准确率卓绝高。
大模子A则满盈提供了不同的甄嬛形象,并莫得参考孙俪,不外,大模子A的图片中,存在许多手指造作;
大模子B的甄嬛也一样存在手指细节造作,同期手机也有些“一眼假”。
百度要作念数百万“超等灵验”的诳骗
通盘测试体验下来,说真话,笔者委果被iRAG惊艳到。几个大模子文生图功能对比,文心一言对用户的提醒分解才智最佳,出图正确率亦然最高的。
而文心一言或者率先,天然是基于百度刚劲的AI才智,而且以搜索起家的百度在这方面更是有先天不足的上风。
百度的iRAG技艺或者将百度搜索的亿级图片资源和刚劲的基础模子才智相辘集,就可以生成各式超真是的图片,举座服从远远跨越文生图原生系统,去掉了AI味儿,而且老本很低。iRAG具备无幻觉、超真是、没老本、立等可取等性情。
在今天的测试中,文心一言对特定物品、特定东说念主物领会才智高,同期得出的适度也莫得“变形的手指”、“诡异的物品”这种充满“AI味儿”的情况。
再回到本文起首提到的五张客岁“闹见笑”的AI成图,如若让现时的文心一言从头生成一次,适度会是什么呢?
锤子手机不再是“真锤子”、皋比鸡蛋不再是“老虎体式的蛋”、计上心来不再是字面兴味上的“东说念主和竹子”,鱼香肉丝和驴肉火烧也都是好意思食形象……今天的大模子满盈不会再犯也曾的“搞笑造作”,不仅或者准确分解用户输入词语,而且生成的图片如若不看水印满盈认不出是AI作念的。
笔者唾手用大模子A试了一下让AI生成“计上心来”图片,适度这个模子其实如故从字面兴味上分解,给出的是东说念主物和竹子两个元素,并不像文心一言一样或者分解谚语本意。
大模子的文生图才智是AI诳骗的很小一个缩影,但同期这个功能或者带来的坐蓐力栽植是庞杂的。小到凡俗自媒体责任者的图文裁剪,大到上市公司宣传海报制作,大模子或者显耀裁减责任老本。而这一切都要成立在AI文生图诳骗“好用、能用”的基础上。
从文生图诳骗拓展来看,越来越多的AI诳骗落地才能真是兴味让“AI时间”惠及到通盘东说念主。是以,发展AI诳骗其实比“卷大模子”更进军。
李彦宏对大模子的不雅点亦然一以贯之的,他依然不啻一次指出,“卷诳骗”才是大模子发展的标的。其实李彦宏的不雅点卓绝正确,诳骗越多才能使得大模子愈加普惠化,不然仅仅无根之木,难以长期发展。
在今天的百度宇宙大会上,李彦宏称“咱们行将迎来AI诳骗的群星醒目时刻”,他还再次强调“超等颖悟”的诳骗比只看DAU的“超等诳骗”更进军,只消对产业、对诳骗场景或者产生大的增益,举座价值就比移动互联网要大多了。
现时,文心智能体平台依然诱惑15万家企业和80万名拓荒者参与,粉饰诳骗场景丰富,涵盖制造、动力、交通、政务、金融、汽车、讲解、互联网等广宽行业。李彦宏称,“百度不是要推出一个‘超等诳骗’,而是要束缚地匡助更多东说念主、更多企业打造出数百万‘超等灵验’的诳骗。”