ai人工智能 电影(ai人工智能电影海报)

Mark wiens

发布时间:2022-09-30

ai人工智能 电影(ai人工智能电影海报)

 

更多互联网精彩资讯、工作效率提升关注【飞鱼在浪屿】(日更新)

这些图像中的每一个都是由人工智能根据电影的简短文本描述生成的。你能从图片猜出电影吗?

雪国列车/Snowpiercer(2013)

绿野仙踪/The Wizard of Oz(1939)

妈妈咪呀!Mamma Mia!(2008)

点击查看更多电影海报。https://noahveltman.com/aimovies/

VQGAN+CLIP——它是如何工作的?

合成图像(GAN 艺术)场景最近见证了一种生产力革新:一种能够从文本生成图像的新型神经网络架构通过免费提供的 Google Colab 笔记本迅速普及。它使成千上万的人能够通过输入文本提示来创建令人惊叹/奇妙/神奇的图像。Twitter、Reddit 和其他论坛被这些图片淹没,通常带有着vqgan或clip标签。

文本到影像模式VQGAN + CLIP推广开辟了新的方法来创建合成媒体,由(图形)执行或算法指令(编程)的技能生成漂亮的图像。

VQGAN+CLIP 是Creative AI工具箱中另一个很酷的工具。是时候从技术角度来看这个工具并解释它是如何工作的了!

什么是 VQGAN+CLIP谁制作了 VQGAN+CLIP它在技术上是如何工作的什么是 VQGAN什么是剪辑VQGAN 和 CLIP 如何协同工作

1.什么是VQGAN+CLIP?

VQGAN+CLIP 是一种神经网络架构,它建立在 OpenAI 于 2021 年 1 月发布的革命性 CLIP 架构之上。

VQGAN+CLIP 它是一个文本到图像模型,在给定一组文本提示(和一些其他参数)的情况下生成可变大小的图像。

之前也有其他文本到图像模型(例如 AttentionGAN),但 VQGAN+CLIP 架构将其提升到一个全新的水平:这些工具创建的图像清晰、连贯和高分辨率的质量使它们与之前出现的 AI 艺术工具区分开来

2、VQGAN+CLIP是谁做出来的

2021 年 4 月左右,Katherine Crowson aka和 Ryan Murdoch aka 结合开源模型 CLIP(来自 OpenAI)和各种 GAN 架构进行实验。

艺术家兼数学家 Katherine Crowson 编写了结合 VQGAN + CLIP 的 Google Colab Notebook。笔记本被共享了一千次。它最初是西班牙文,后来被翻译成英文。早些时候,Ryan Murdoch使用BigGAN + CLIP,这是 Crowson 笔记本的灵感来源。

3.它在技术上是如何工作的?

互联网小常识:综合布线系统设计等级:基本型(1)、增强型(2)和综合性。

VQGAN+CLIP 是两种神经网络架构的组合:VQGAN 和 CLIP。在我们查看它们之前,让我们分别单独看这两个。

互联网小常识:网络管理系统一般由管理进程(Manager)、被管对象(MO)、代理进程(Agent)、管理信息库(MIB)和网络管理协议(SNMP和CMIP)五部分组成。

4.什么是VQGAN?

一种神经网络架构最早在海德堡大学(2020)的论文《Taming Transformers/驯服变形金刚》中提出它结合了卷积神经网络(一般用于图像)和Transformers(一般用于语言)它非常适合高分辨率图像

尽管 VQGAN 涉及 Transformers,但模型不是用文本训练的,而是纯图像数据。他们只是将之前用于文本的 Transformer 架构应用到图像上,这是一个重要的创新。

5. 什么是剪辑?

CLIP 是一个经过训练的模型,用于确定一组字幕中的哪个字幕最适合给定图像CLIP =ContrastiveLanguage–ImagePre-training它使用Transformers由 OpenAI 于 2021 年 1 月提出论文:从自然语言监督中学习可迁移的视觉模型/Learning transferable visual models from natural language supervisionGit 仓库:https : //github.com/openai/CLIP

与 VQGAN 相反,CLIP 不是生成模型。CLIP 只是经过训练可以很好地表示文本和图像。

CLIP 的革命性之处在于它能够进行零样本学习。这意味着它在以前看不见的数据集上表现异常出色——通常比专门在特定数据集上训练的模型要好!

6. VQGAN 和 CLIP 如何协同工作

一句话:CLIP 将 VQGAN 引导到与给定文本最匹配的图像。

使用 Katherine Crowson 笔记本中介绍的术语,CLIP 是感知器,VQGAN 是生成器。

CLIP 是一个模型,最初的目的是在许多图像中搜索与a dog playing the violin这样的描述的最佳匹配。通过将可以生成图像的网络(某种生成器)与 CLIP 配对,可以调整生成器的输入以尝试匹配描述。 (@advanoun)

分别查看两个模型的输入和输出是有意义的:

VQGAN:像所有 GAN 一样,VQGAN 接受一个噪声向量,并输出一个(真实的)图像。

另一方面,CLIP接收:- (a) 图像,并输出图像特征;或- (b) 一个文本,并输出文本特征。图像和文本的相似度可以用学习到的特征向量的余弦相似度来表示。

通过利用 CLIP 的能力作为方向盘,我们可以使用 CLIP 来引导搜索 VQGAN 的潜在空间,以根据 CLIP 找到与文本提示非常匹配的图像。

旁注:与正常GAN 的区别:

尽管 VQGAN 和 CLIP 模型在您在 VQGAN 中使用时都经过了预训练,但基本上(再次)针对提供的每个提示对其进行训练。这与普通GAN 不同,在普通GAN 中训练一次(或使用预训练模型),然后只需进行推理以生成图像。

互联网小常识:网桥最主要面临的问题是帧转发率低与广播风暴,影响其性能的主要参数是:帧转发率与帧过滤率。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186