一个模型通杀八大视觉任务,一句话产生图像视频
发布时间:2021-11-30 05:05:45 所属栏目:传媒 来源:互联网
导读:有这样一个模型。 它可以做到一句话生成视频: 不仅零样本就能搞定,性能还直达SOTA。 它的名字,叫NWA(女娲)。 女娲女娲,神通广大,正如其名,一句话生成视频只是这个模型的技能之一。 除此之外,一句话生成图片,草图生成图像、视频,图像补全,视频预测
|
有这样一个模型。 它可以做到一句话生成视频: 不仅零样本就能搞定,性能还直达SOTA。 它的名字,叫“NüWA”(女娲)。 “女娲女娲,神通广大”,正如其名,一句话生成视频只是这个模型的技能之一。 除此之外,一句话生成图片,草图生成图像、视频,图像补全,视频预测,图像编辑、视频编辑—— 一共八种视觉任务,它其实全部都能搞定。 完全是一位不折不扣的“全能型选手”。 它,就是由微软亚研院和北大联合打造的一个多模态预训练模型,在首届微软峰会上亮相。 目前,在推特上已“小有热度”。 八项全能“女娲”,单拎出来也不差 所以这个全能型选手究竟表现如何? 直接与SOTA模型对比,来看看“她”在各项任务上的表现。 在文本生成图像中,不得不说,即使“女娲”的FID-0得分不及XMC-GAN,但在实际效果中,“女娲”生成的图肉眼可见的更好,清晰又逼真。 文本到视频中,“女娲”每一项指标都获得了第一名,从逐帧图片来看,差距很明显。 在视频预测中,所有模型使用64x64的分辨率,Cond.代表供预测的帧数。 尽管只有1帧,“女娲”也将FVD得分从94±2降到86.9。 草图转图像时,与SOTA模型相比,“女娲”生成的卡车都更逼真。 而在零样本的图像补全任务中,“女娲”拥有更丰富的“想象力”。 并且,它的另一个优势是推理速度,几乎50秒就可以生成一个图像;而Paint By Word在推理过程中需要额外的训练,大约需要300秒才能收敛。 (编辑:广元站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- Σco时间丨华为云WeLink+拓维区域学习中心助力教育信息化新
- JQuery Tips(4)一些关于提高JQuery性能的Tips
- Strategy Analytics:运营商是否应该将5G部署计划推迟至202
- 英特尔、阿里巴巴全方位深化技术创新 共同引领数智未来
- 淘宝直播奥运赛时黄金档 助力品牌成交和声量共赢
- 老虎云分析师Ben:如何在合约交易中形成自己的操作系统并找
- GTC 2020 | NVIDIA发布具有云原生支持的Jetson Xavier NX开
- 霍尼韦尔公布全球最强量子计算机,在IBM基准性能测试中顺利
- 中国技术再下一城 阿里云自研数据库AnalyticDB打破TPC-DS世
- 开源凭什么“出圈”?——企业开源实践联盟城市高管在线圆桌


