Z-Image-Turbo 初尝试

最近阿里通义团队新开源了一个文生图模型 Tongyi-MAI/Z-Image-Turbo，官方介绍这是一个蒸馏版 (Distilled) 模型，仅需 8 步推理 (8 NFEs) 即可生成高质量图像，也就是说，可以在消费级显卡上流程运行。最近，我也在 Google Colab 平台上试了试。

介绍

首先介绍下这个模型

参数：

名称：Z-Image-Turbo
类型：文本到图像生成模型 (Text-to-Image)
参数：60亿 (6B)
架构：可扩展的单流 DiT (Scalable Single-Stream DiT, S3-DiT)
开源许可：Apache-2.0

亮点：

极致效率：蒸馏模型，8 步推理即可生成高质量图像。
中英双语支持：擅长处理复杂的中文和英文文本渲染，准确地按照指定的文字内容生成图像。
写实风格：专注于生成照片级逼真 (Photorealistic) 的图像，同时保持优秀的审美质量。
强大的指令遵循：能够很好地理解和执行用户的 Prompt 指令。

而我刚好前段时间在X上也刷到很多相关资讯，看到的生成效果在这个参数量级感觉已经很不可思议了，从观感上而言，个人认为效果非常不错，今天就来试试这个模型到底怎么样。

部署

因为我不怎么玩游戏，所有我也没有游戏主机，自然也没有还不错的消费级显卡，那就只能去租用平台算力。经过搜索以及反复比较，也考虑到网络要求的相关，最终选择了 Google Colab 算力平台，毕竟G家也是有自身硬实力(TPUs)的对吧。

Pro套餐每月包含100点算力也足够我日常轻度使用了，订阅费用为$9.9/mo，当然也可以使用US教育邮箱做学术认证方可使用，我这里采用了后者订阅方式，大家可以根据自身所需选择合适的套餐订阅使用。

开通后访问 https://colab.research.google.com/ 就可以开始使用了，引入来自 ComfyUI-Manager 官方项目中的 .ipynb 文件到Colab Workspace，右上角选择对应算力运行类型，里面主要是环境和GPU选择，经济考虑，我这里选择了T4 GPU搭配High-RAM(51GB)，内存一定要选择上Hight-RAM，就拿一个有 70 亿参数的模型，如果用 FP16，光权重就要占有大约 14GB 内存，更别说还有推理过程的占用了。

基于上图中这套配置，使用成本大约在1.41 per hour左右，也就是说，100点能够不停歇给你提供约71小时的算力使用。确认好配置后点击右上角Connect连接到你的算力实例，就可以开始部署ComfyUI了。

运行第一段代码，会提示连接到你的Google Drive，这是因为Colab只给你提供算力以及临时存储空间，而你的所有文件包括模型最终都需要下载到你的Drive中进行持久化存储，只是在使用Colab过程中可以临时挂载到算力实例上面。第一段代码运行完毕大约需要4分钟，在这过程中主要是配置Google Drive集成，安装ComfyUI以及对应的一些必要环境和依赖。

接着开始运行第二段代码，这里核心内容是下载Z-Image-Turbo的模型文件，我这里配置了来自Huggingface平台上的Comfy-Org/z_image_turbo模型，可以在 https://huggingface.co/Comfy-Org/z_image_turbo/tree/main 找到，此处下载了三部分文件：

Stable Diffusion 1.5
CLIP Vision
z_image_turbo 相关组件
- VAE（变分自编码器）
- Diffusion Model（扩散模型本体）
- Text Encoder（文本编码器）

由于我在之前已经提前下载过了，保存到了Google Drive中，所以再次运行ComfyUI时无需重复下载。

接下来就是运行第三块代码，这里核心负责启动ComfyUI，并且通过 Google Colab 提供的端口转发功能，将实例内的本地端口转发到可以公网访问到的地址上，当你看到以下这部分黑色的ComfyUI界面时，就说明启动成功了。

继续往下查看日志，可以看到：

[ComfyUI-Manager] All startup tasks have been completed.

这样一行关键字，以及一个网页地址链接，点击这个网页地址，就可以调整到你的ComfyUI平台了。是一个类似 xxxxx.xxx.prod.colab.dev 这样的地址。

接着我们将由 https://comfyanonymous.github.io/ComfyUI_examples/z_image/ 提供的 Z Image 工作流示例图片直接拖动到我们ComfyUI中。

如果一切顺利，这里将直接加载好对应的模型文件了，然后就可以开始体验Z-Image-Turbo模型了，可以直接点击右上角的运行进行初始化，初次运行会耗时比较长，大约需要5分钟，因为需要加载模型。

体验

接着就可以正常使用了，我先使用简单的提示词来尝试一下生成效果。经过了5分钟的初始化，后续在生成1920*1080分辨率图片时，一张大约在90s的样子，考虑到这块Tesla T4 GPU的性能参数，还算能够接受。

写实风格，一条山间小溪，一只小鹿正在饮水，环境贴合自然，春季。

一位徒步登山者穿着专业登山装备以及徒步背包走在山脊上，长焦镜头视角，镜头背景是巍峨的雪山。

F1比赛场，观众视角，专业车手驾驶赛车在赛道上你追我赶，现场的观众也将比赛氛围推向了赛点高潮。

清晨，雾还没散去，隐约从山里延展了一条道路出来，围绕在半山腰，没有一辆车也没有一个人，安静、孤寂的感觉。

通过简单描述下场景，就能生成出如此惊艳的图片，有点出乎我的意料了。甚至我已经无法分辨出这是由AI生成的图片，一眼看去和实际拍摄的照片几乎没有两样。发给朋友看也觉得不可思议，他也尝试本地部署进行了体验，4080s出图1080P大约9秒钟一张，比这块T4 GPU要快不少。

闲聊

当今AI的迅速发展也令人感慨，回想三年前22年11月底，ChatGPT的GPT-3.5初次出现在大家视野中，为普通人提供了追寻答案的捷径。再次之前的印象中，AI好像离我们特别遥远，只是模糊记得有一些神经网络模型、视觉神经模型，用作一些很简单且单一的场景，也根本没能想到有一天会像一个人一般出现在我的手机、电脑里，可以24小时随叫随到解决你的问题。三年后的今天，AI几乎已经走进了每一个普通人的视野里，工作中、生活中，扮演着各种各样的角色，这对于人类的进步无疑是巨大的

我在前段时间抽空看完Joe Rogan 和马斯克的 3 小时访谈，里面Elon Musk提到了未来AI发展可能的趋势，比如未来不再会有操作系统或者应用程序，所有的操作、应用交换都只需要用自然语言去实现，调用系统各大平台的MCP或者接口，不再需要我们手动耗费精力去操作设备；也聊到了AI 边缘节点这个概念，传统意义上的手机将演变成一个用于 AI 推理的边缘节点，随地随地进行实时计算，尽可能多的在手机或各种设备上运行AI，减少与服务器直接的带宽已经算力。我无法想象未来会变成什么样子，有了AI和机器人，真的能让普通人去过更有意义的生活吗？或许，这些都只是理想的社会主义乌托邦，资本家即使有这样的能力，也不会开放给消费者使用，社会与经济的全面富足不是资本家愿意看到的场面，就像他们不希望普通人快速完成原始资本累积一样。

原创内容，转载请注明出处：https://tls.su/archives/7

Z-Image-Turbo 初尝试

介绍

部署

体验

闲聊

评论

发表回复取消回复

更多文章

记一次BackCountry海淘售后

聊聊今年家里的网络升级改造