上周,瑞士软件工程师 Matthias Bühlmann 发现 —— 流行的图像合成模型“Stable Diffusion”,可实现较现有的 JPEG 或 WebP 格式更高的位图图像压缩比、且视觉伪影也更少。即便如此,Stable Diffusion 也不是那么完美。作为一种 AI 图像合成模型,其通常根据文本描述(所谓的“提示”)而生成图像。
(相关资料图)
用锯齿彩块来描绘的图像压缩概念(via ArsTechnica)
AI 模型通过研究从互联网上提取的数百万张图像来学习这种能力,在训练过程中,模型在图像和相关词之间建立了统计关联。
然后对每张图像的关键信息添加更小的“表示”和赋予“权重”,后者代表了 AI 图像模型所掌握的数学值。
当稳定扩散分析、并将图像“压缩”为权重形式时,它们就处在了所谓的“潜在空间”中 —— 它们以一种模糊潜力的形式存在,且能够在解码时于图像中复现。
这项研究中用到的 Stable Diffusion 1.4,其权重文件大小约为 4GB —— 代表了该 AI 模型掌握的数亿张图像的知识。
使用稳定扩散压缩图像的示例
尽管大多数人使用了带文本提示的稳定扩散,但 Bühlmann 还是斩断了文本编码器、而是强制通过稳定扩散图像编码器来处理。
该过程将低精度的 512×512 图像、转换为更高精度的 64×64 潜在图像空间表示。此时图像存在的数据量较原始文件小得多,但仍可将之解码扩展回 512×512 图像、并获得相当良好的结果。
测试期间,Bühlmann 发现使用稳定扩散压缩的新图像,可在更高的压缩比(更小的文件大小)下,主观上看起来较 JPEG 或 WebP 更佳。
以这张美洲鸵的照片为例,其原始文件大小为 768 KB 。尽管 JPEG / WebP 格式分别可压缩到 5.68 和 5.71 KB,但稳定扩散方法可进一步压缩到 4.98 KB 。
与对照的图像压缩格式相比,稳定扩散似乎具有更多可分辨的细节、以及明显更少的压缩伪影。
不过 Bühlmann 也指出了现阶段的一个很大局限性 —— 它不太适合面容或文本,且在某些情况下会让解码图像中的细节特征产生“幻象”。
这些特征可能在源图像中并不存在,更别提解码需要动用高达 4GB 的稳定扩散权重文件、以及额外的解码时间。
即便如此,这种非常规稳定扩散用例,还是较实际的解决方案更加有趣,甚至有望开辟图像合成模型的未来新用途。
感兴趣的朋友,可移步至 Google Colab 查看 Bühlmann 的示例代码,或在有关 Towards AI 的帖子中找到实验中的更多技术细节。
-
【环球热闻】女子为玩羊了个羊看广告被骗9万元近日,常州严女士在玩 "羊了个羊 "游戏时,为了获取道具观...
-
重点聚焦!鞭牛晚报:马斯克以2510亿美元身价成为美国首富;奔驰客服回应导航时弹窗广告;iPhone14Pro被曝充电时随机重启编者按:鞭牛士将以晚报形式盘点一天内发生的重要事件,内容...
-
每日信息:娃哈哈:未参与“娃茅”白酒的生产、销售等任何活动据报道,有企业使用“娃哈哈”名义宣传推广“娃茅”酱香白酒...
-
滚动:李玟《好声音》录制现场发飙,怒骂节目组:瞎的据网易娱乐报道,近日,有网友晒出一段视频,称李玟在《中国...
-
环球观点:怪兽充电宣布股权回购计划延长12个月怪兽充电发布公告,宣布董事会已经批准将股权回购计划的实施...
-
天天热点评!宁德时代:拟不超140亿元投建洛阳新能源电池生产基地项目宁德时代发布公告称,公司拟在河南省洛阳市伊滨区投资建设洛...
-
焦点速读:男孩放跑客人寄存宠物店的2万元猫,店长:已报警据沸点消息,近日,重庆,小男孩打开宠物店内柜门,放走客人...
-
世界热议:夫妻4万买下周大福25万金饰被起诉,周大福:价格系操作错误据极目新闻,近日,深圳周大福公司与王某夫妻二人买卖合同纠...
-
全球快消息!任泽平9天6次炮轰苹果,呼吁果粉:不要再沦为“高端”韭菜今日,经济学家任泽平再次公开发文,炮轰苹果。他表示所谓的...
-
每日报道:餐饮品牌侵权胡歌拒不履行义务成老赖企查查APP显示,近日,广州周先生企业管理有限公司和杭州周先...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34