DALL-E、Stable Diffusion 等 20+ 图像生成模型综述

news/2024/7/8 6:13:41 标签: stable diffusion

二、任务场景

2.1. 无条件生成

无条件生成是指生成模型在生成图像时不受任何额外条件或约束的影响。模型从学习的数据分布中生成图像,而不需要关注输入条件。

2.2. 有条件生成

有条件生成是指生成模型在生成图像时受到额外条件或上下文的影响。这些条件可以是类别标签、文本描述、特定属性等。有条件生成广泛应用于需要模型理解并满足特定条件的任务。例如,给定文本描述,生成与描述相符的图像;或者在生成特定类别的图像时,提供类别标签。

2.2.1. 类别条件生成

类别条件生成是非常常见的一种场景,也有许多相关的任务,其中 ImageNet 是最常见的一种,ImageNet 常用于图像分类任务,每个图像都有一个类别标签,总共有 1000 个类别。在图像生成领域,可以指定对应的类别标签,然后让模型按照类别生成图像。

如下图所示为基于 ImageNet 训练后,按类别生成的图像结果(来自 ViT-VQGAN):

9.1. DALL-E mini 模型概述

如下图所示,DALL-E mini 中作者使用 VQ-GAN 替代 dVAE,使用 Encoder + Decoder 的 BART 替代 DALL-E 中 Decoder only 的 Transformer。

训练过程:

将图像输入进VQGAN-Encoder,得到image encoder vector,将图像对应的文本输入进bert encoder-decoder模型,得到根据文本预测得到的图像,计算image encoder vector与预测图像的loss,从而更新VQGAN-Encoder、Bert

9.2. DALL-E mini 模型推理

在推理过程中,不是生成单一的图像,而是会经过采样机制生成多个 latent code,并使用 VQ-GAN 的 Decoder 生成多个候选图像,之后再使用 CLIP 提取这些图像的 embedding 和文本 embedding,之后进行比对排序,挑选出最匹配的生成结果。

图片

将文本输入进Bert,得到预测的多个候选,通过VQGAN-Decoder得到多个解码后的图像,利用CLIP计算解码后的图像与文本之间的最小距离对应的图像,当成输出

文生图模型演进:AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型

DALL-E、Stable Diffusion 等 20+ 图像生成模型综述


http://www.niftyadmin.cn/n/5536694.html

相关文章

超详细之IDEA上传项目到Gitee完整步骤

1. 注册gitee 账号密码,gitee官网地址:Gitee官网,注册完成后,登录。 2. 创建仓库,在主页左下角有新建按钮,点击新建后会进入到此页面填写仓库信息。 3. 创建完成后复制仓库地址 4. 打开IntelliJ IDEA新建或…

Java | Leetcode Java题解之第213题打家劫舍II

题目: 题解: class Solution {public int rob(int[] nums) {int length nums.length;if (length 1) {return nums[0];} else if (length 2) {return Math.max(nums[0], nums[1]);}return Math.max(robRange(nums, 0, length - 2), robRange(nums, 1,…

开发者工具攻略:前端测试的极简指南

前言 许多人存在一个常见的误区,认为测试只是测试工程师的工作。实际上,测试是整个开发团队的责任,每个人都应该参与到测试过程中。 在这篇博客我尽量通俗一点地讲讲我们前端开发过程中,该如何去测试 浏览器开发者工具简介 开…

探索企业知识边界,鸿翼ECM AI助手开启智慧问答新时代

在信息化迅速发展的当下,企业积累的数字文档数量巨大,这些文档中蕴含的深层信息对业务发展至关重要。然而,传统的搜索技术常常因只能进行关键字查询而无法满足对文档深层次理解的需求。 据Gartner调查,高达47%的员工在寻找有效工…

Java中多线程开发减少线程上下文切换开销

使用线程池: 创建和销毁线程是有代价的,线程池可以重用已存在的线程,减少这种开销。合理设置线程池的大小,避免线程过多导致频繁的上下文切换。减少锁竞争: 锁是引起上下文切换的主要原因之一。尽量减少锁的使用&#…

《数据仓库与数据挖掘》自测

试卷一 一、选择题(每题2分,共20分) 1. 数据仓库的主要特征不包括以下哪一项? A. 数据量大 B. 异构数据整合 C. 事务处理 D. 支持决策分析 2. OLAP的核心功能是: A. 事务处理 B. 多维数据分析 C. 数据清洗 D. 数据转…

AI学习指南机器学习篇-随机森林模型评估

AI学习指南机器学习篇-随机森林模型评估 随机森林是一种强大且灵活的机器学习模型,通常用于解决分类和回归问题。在应用随机森林模型时,评估模型的性能是至关重要的。本文将讨论随机森林模型的评估指标,如准确率、均方误差等,以及…

香橙派AIpro做目标检测

使用香橙派AIpro做目标检测 文章目录 使用香橙派AIpro做目标检测香橙派AIpro开发板介绍香橙派AIpro应用体验快速体验香橙派的AI功能YOLOV5s目标检测使用场景描述图像目标检测视频目标检测摄像头目标检测YOLOv5s 目标检测的运行结果分析香橙派 AIpro 在运行过程中的表现 香橙派A…