(资料图)
当前,大型语言模型(LLM)已经掀起自然语言处理(NLP)领域的变革浪潮。我们看到 LLM 具备强大的涌现能力,在复杂的语言理解任务、生成任务乃至推理任务上都表现优异。这启发人们进一步探索 LLM 在机器学习另一子领域 —— 计算机视觉(CV)方面的潜力。 LLM 的一项卓越才能是它们具备上下文学习的能力。上下文学习不会更新 LLM 的任何参数,却在各种 NLP 任务中却展现出了令人惊艳的成果。那么,GPT 能否通过上下文学习解决视觉任务呢? 最近,来自谷歌和卡内基梅隆大学(CMU)的研究者联合发表的一篇论文表明:只要我们能够将图像(或其他非语言模态)转化为 LLM 能够理解的语言,这似乎是可行的。 这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。这种新方法使得 LLM 能够执行图像生成任务,而无需进行任何参数更新。这也是使用上下文学习使得 LLM 生成图像内容的首个成功方法。 我们先来看一下通过上下文学习,LLM 在生成图像内容方面的实验效果。 例如,在给定上下文中,通过提供 50 张手写图像,论文要求 PaLM 2 回答需要生成数字图像作为输出的复杂查询: 还能在有图像上下文输入的情况下生成逼真的现实图像: 除了生成图像,通过上下文学习,PaLM 2 还能进行图像描述: 实际上,将图像转化为 LLM 能够理解的语言,是在视觉 Transformer(ViT)论文中就已经研究过的问题。在 Google 和 CMU 的这篇论文中,他们将其提升到了一个新的层次 —— 使用实际的单词来表示图像。 这种方法就像建造一个充满文字的塔楼,捕捉图像的语义和细节。这种充满文字的表示方法让图像描述可以轻松生成,并让 LLM 可以回答与图像相关的问题,甚至可以重构图像像素。 具体来说,该研究提出使用经过训练的编码器和 CLIP 模型将图像转换为一个 token 空间;然后利用 LLM 生成合适的词法 token;最后使用训练有素的解码器将这些 token 转换回像素空间。这个巧妙的过程将图像转换为 LLM 可以理解的语言,使我们能够利用 LLM 在视觉任务中的生成能力。 该研究将 SPAE 与 SOTA 方法 Frozen 和 LQAE 进行了实验比较,结果如下表 1 所示。SPAEGPT 在所有任务上性能均优于 LQAE,且仅使用 2% 的 token。 总的来说,在 mini-ImageNet 基准上的测试表明,SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。 为了验证 SPAE 设计方法的有效性,该研究进行了消融实验,实验结果如下表 4 和图 10 所示: ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
GPT:上下文学习视觉任务
-
清博亮相世界人工智能大会
-
物联网模组市场变动
-
莱茵体育董事长覃聚微曾当过植物园科员 公司因亏损而陷诉讼纠纷
-
东芯股份总经理谢莺霞年薪高达230万 近日还减持套现750万
-
配电箱6ap是什么意思(配电箱中的63a2p是指什么)
-
39.5℃!高温日+1!厦门的气温回落就在……
-
出行更方便!团风公路总里程达2694公里
-
7月10号开始偏财特旺,财运亨通,3生肖有望翻身变财主
-
能对标药神,宝宝演得好导得不错,却只欠陈监制了
-
张朝阳回应曾患焦虑症:靠心理学彻底治愈
-
如何选购电压力锅?
-
钛金属深蓝色iPhone 15 Pro渲染图,采用静音按钮及USB-C接口
-
《王国之泪》制作人谈游戏灵感来源
-
菜鸟副总牛智敬曾在媒体任职但资历不算深 公司曾有高管贪腐被抓
-
罗马诺:伯恩利将签下多特19岁中卫库利巴利,几小时内签署协议
-
日媒评《FF16》缺乏新鲜感 难以成为PS5独占代表作
-
批量组合文章怎么弄(批量组合文章怎么做)
-
韩国:今年前5月访韩外国游客中日本人最多,占比近2成
-
微商包围2D数字人
-
华为云盘古大模型:下矿坑、测台风、进产线,没时间作诗
-
iPhone 15 Pro/Pro Max将新增这款配色
-
聚焦监管和安全,蚂蚁集团多款可信AI产品亮相2023WAIC
-
雷军:印度贪婪代价
-
晨光股份财务总监汤先保之前在德邦曾长期管人事 为何后来干财务?
-
中移动市场详情:涉5G视频云客服、5G新通话、云算终端产品体系等
-
芯海科技副总杨丽宁擅长芯片研发功劳巨大 前不久刚减持套现146万
-
章剑生:高额行政罚款法律适用还需多思量 | 学者评论
-
2023年7月9日上海市正庚烷价格最新行情预测
-
3-0横扫日本冠军,11-6、11-3、11-5,世界第一孙颖莎3-1赢德比
-
蚂蚁联合电信投放200+老友亭
-
怎么区分原子弹、氢弹、三相弹、中子弹?谁的威力更大?
-
利用人类反馈管住AI的嘴
-
一场关于充电器的美学创新:Anker 三合一磁力魔方
-
电热水器漏水解决方法
-
三大运营商地市分公司百强榜名单揭晓 部分地市分公司发展情况揭秘
-
均瑶健康副总雷洪泽的大专学历是全日制的吗?年薪291.2万挺不错
-
恺英网络副总梁智青大专毕业 年薪22.42万不到副总林彬薪酬的1/10
-
巴里克CEO:在赞比亚和刚果寻找更多铜矿
-
1099元!RX 6500 XT极地版OC显卡上市
-
牌照续展正式落地,支付龙头全新起航
-
为什么瑞幸们的冰块化得那么慢?
-
小学一年级数学课件ppt(小学一年级数学课件)
-
iPhone 15 Pro:深蓝色+超窄边框
-
《街霸6》全球销量破200万,目标1000万
-
知乎宣布7月14日下线“匿名功能”
-
腾讯被罚30亿,无负面影响
-
如何在2059年取得成功?
-
中国电信2023集团战略业务单元名单出炉 部分地市分公司揭晓
-
紫光国微副总裁杜林虎忠诚度高 年薪160万不如副总乔治城
-
宝强新片看哭星爷,华纳回应《芭比》被禁
-
NOKIA5320主题(nokia5320)
-
宁夏六盘山:感受清凉夏天
-
人工智能从娃娃抓起,2023 世界人工智能大会青少年人工智能创新发展论坛为孩子们插上科技的翅膀
-
亚冠夺冠:中国汽车热销
-
“骑手能看到用户查看配送进度”?外卖平台:没有该功能
-
iPhone15系列外观变化曝光
-
举例说明chatgpt是如何工作的
-
i5反杀i7?13600KF实测对比12700KF
-
中国联通多位处级干部调整 含省公司部门及地市分公司一把手等
-
ST新纺总经理陶国定18岁工作曾是工人 曾因财报披露不准被警示
-
振华风光副总刘岗岗本科是民办三本?如今年薪74.83万年轻有为
-
B站副总刘智负责商业化中台功劳大 曾有高管谈“裁员技巧”被罚
-
优酷的二维码在哪里 优酷的二维码在哪里打开
-
word文档一整页怎么截屏?看完你就学会了
-
上半年新注册登记新能源汽车312.8万辆(新数据 新看点)
-
折叠屏手机一季度销售108万部 华为、OPPO和三星三足鼎立
-
北大教授张千帆结局(北大教授猛烈大胆演讲)
-
1.5K屏幕+5800mAh电池,一款能够让您两天一充的高性价比手机
-
讯飞SR702:最强录音笔!
-
芯片反击见效!美国、荷兰转向,日媒:我们成唯一输家
-
小米、苹果造车谁能突围?
-
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
-
中国移动启动大规模中高层干部调整 今年首批涉及多家重要省公司等
-
冰川网络财务总监董嘉翌35岁曾多次跳槽 去年她本人被出具警示函
-
华兰生物财务总监谢军民年薪58万元 公司曾因员工工伤身亡引纠纷
-
抢农时,减损失——湖南湘西洪涝灾区加紧恢复农业生产见闻
-
我的世界通用机械mod工厂有什么用
-
我的世界通用机械mod化学溶解室有什么用
-
我的世界通用机械mod太阳能中子活化器有什么用
-
我的世界通用机械mod私人箱子有什么用
-
中小企业保持恢复性增长态势
-
迪卡尼奥:姆巴佩被宠坏了,他在利用大巴黎却没有道德和尊重
-
政策“礼包”精准发力 实现企业和人才的“双向奔赴”
-
手机相关知识:手机被强制停机怎么办
-
酷睿12代,MagicBook X14 2023,3599元!
-
买灯具,建议大家这6种不要选,并非迷信,而是过来人的经验
-
从5999元跌至2909元,256GB+80W+2K屏,防水陶瓷旗舰已沦为中档机
-
AI助互联网复苏,大模型创业“逛超市”
-
联想Y700搭载骁龙8+!
-
中国电信人事:某专业公司原一把手退休、三家行业公司新添总经理
-
国民技术董事长孙迎彤很有钱年薪酬350万 直接持股市值超2.9亿
-
鹅的组词_鹅字组词
-
克宫回应“泽连斯基从土耳其带回亚速营军官”:违反协议,俄没收到通知
-
我的世界通用机械mod盐有什么用
-
我的世界通用机械mod锂粉有什么用
-
我的世界通用机械mod锇压缩机有什么用
-
我的世界通用机械mod净化仓有什么用
-
450主板推荐(450主板支持什么cpu)
-
暗黑325赛季巫医怎么开荒(暗黑破坏神三25赛季巫医开荒攻略)