AI到底是怎么画画的？

A16 少年派下载PDF 上一版 |

A16少年派

　　从智能语音助手到无人驾驶汽车，从AI绘画到机器学习，人工智能为我们打开了一个充满无限可能的未来。除了生成人类照片，AI还可以根据我们的需求画出各种各样风格的照片。

　　AI生成图像的背后，有一项非常重要的技术——GAN。GAN 是 Generative Adversarial Networks的首字母缩写，意思是生成式对抗网络，它是一种深度学习模型。

　　GAN由生成器和鉴别器组成。如果要画人脸照片，生成器就负责生成人像图片，这些生成的图片，会和真人照片混在一起，然后让鉴别器去做判断。

　　经过成千上万次的学习训练，生成器生成的图片会越来越接近真实的人类照片，而鉴别器也会不断提升鉴别能力。就这样，经过千万次训练，AI就能画出极其逼真的人像了。

　　除了GAN，还有一种AI图像生成技术——Stable Diffusion。简单地说，Stable Diffusion能够将一堆杂乱无序的噪声图像一步步去噪声，最终生成预期的图片。

　　图像生成软件还有一个很重要的功能，即根据自然语言描述的内容生成图像。其间离不开两项技术，首先是图像识别技术。无论是自动驾驶还是搜索图片中的物品，都依赖于AI对图像内容的识别。

　　另一项重要技术就是自然语言识别技术。在过去几十年里，人们一直在想办法让AI能看懂我们写的字，了解我们在说什么，这会让AI能够更好地理解我们给定的文本含义。

　　在图像识别和自然语言识别技术日趋成熟之后，跨模态检索技术出现了。模态是指数据的存在形式，比如文本、图像、视频等形式。跨模态检索能够将不同模态的数据进行关联对应。

　　目前，基于GAN、Stable Diffusion的AI图像生成技术已经有了非常多的应用，除了图像生成，在生成音乐、视频、文字等方面都有极其广泛的应用。