信息发布→ 登录 注册 退出

12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法

发布时间:2023-05-12

点击量:

只需12秒,只凭手机自己的算力,就能拿stable diffusion生成一张图像。

而且是完成了20次迭代的那种。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

要知道,现在的扩散模型基本都超过了10亿参数,想要快速生成一张图片,要么基于云计算,要么就是要本地硬件够强大了。

而随着大模型应用逐渐普及开来,在个人电脑、手机上跑大模型很可能是未来的新趋势。

由此,谷歌的研究员们带来了这篇新成果,名字就叫Speed is all you need:通过GPU优化加速大规模扩散模型在设备上的推理速度。

三步走优化加速

该方法是针对Stable Diffusion来做的优化,但同时也能适应其他扩散模型。面向的任务是从文本生成图像。

具体优化可以分成三个部分

  • 设计专门的内核
  • 提升Attention模型效率
  • Winograd卷积加速

首先来看专门设计的内核,它包括了组归一化和GELU激活函数。

组归一化是在整个UNet体系结构中实现,这种归一化的工作原理是将特征映射的通道划分为更小的组,并对每个组独立归一,使组归一化较少依赖于批大小,并且能适应更大范围的批处理大小和网络架构。

研究人员以GPU着色器(shader)的形式设计了一个独特的核,能在没有任何中间张量的情况下,在单个GPU命令中执行所有内核。

GELU激活函数中,包含大量的数值计算,如惩罚、高斯误差函数等。

通过一个专用着色器来整合这些数值计算以及伴随的分割和乘法操作,使得这些计算能放在一个简单的draw call里。

Draw call是CPU调用图像编程接口,命令GPU进行渲染的操作。

接下来,到了提升Attention模型效率方面,论文介绍了两种优化方法。

其一是部分融合softmax函数。

为了避免在大矩阵A上执行整个softmax计算,该研究设计了一个GPU着色器来计算L和S向量以减少计算,最终得到一个大小为N×2的张量。然后将softmax计算和矩阵V的矩阵乘法融合。

这种方法大幅减少了中间程序的内存占用张量和总体延迟。

需要强调的是从A到L、S的计算映射的并行是有限的,因为结果张量中的元素比输入张量A中的元素数量要少得多。

为了增加并行、进一步降低延迟,该研究将A中的元素组成block,将归约操作(reduction operations)切分为多个部分进行。

然后在每个block上执行计算,然后将其简化为最终结果。

利用精心设计的线程和内存缓存管理,可以在多个部分实现使用单个GPU命令降低延迟。

另一种优化方法是FlashAttention。

这是去年火起来的IO感知精确注意力算法,具体有两种加速技术:按块递增计算即平铺、并在后向传递中重新计算注意力,将所有注意力操作融合到CUDA内核中。

相较于标准Attention,这种方法能减少HBM(高带宽内存)访问,提高整体效率。

不过FlashAttention内核的缓存器密集度非常高(register-intensive),所以该团队是有选择性地使用这一优化方法。

他们在注意力矩阵d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情况下使用部分融合softmax函数。

第三部分是Winograd卷积加速。

它的原理简单来说就是使用更多的加法计算来减少乘法计算,从而降低计算量。

但弊端也很明显,将会带来更多的显存消耗和数值错误,尤其是在tile比较大的情况时。

Stable Diffusion的主干非常依赖3×3卷积层,尤其是在图像解码器方面,这里90%的层都是由3×3卷积层构成的。

研究人员分析后发现,在使用4×4大小的tile时,是模型计算效率和显存利用率的最佳平衡点。

实验结果

为了评估提升效果,研究人员先在手机上进行了基准测试。

结果表明,两部手机在使用了加速算法后,生成图片的速度都明显提升。

其中三星S23 Ultra的延迟降低了52.2%,iPhone 14 Pro Max上的延迟降低了32.9%。

在三星S23 Ultra上端到端从文本生成一张512×512像素的图片,迭代20次,耗时在12秒以内。

论文地址:https://www./link/ba825ea8a40c385c33407ebe566fa1bc



相关文章: 单片机驱动AI大模型创新,开启嵌入式智能新时代探索之旅,ai算法裁员  AI星火鼠标,引领高效办公新时代的智能助手,ai exo  让你的文案更具吸引力如何进行高效的文案写作修改  Oppo AI赋能,深度解析智能创新与AI模型变革,图片变圆角ai  AI自动生成:开启智能时代的无限可能,ai熊熊图片  SDAI模型升级攻略,一键更新,优化无忧,塔罗牌 ai  文心一言App水印功能引热议,版权保护还是分享?,论文ai智能写作助手免费版  AI唱将养成记,揭秘个性化虚拟歌手训练模型软件,论文写作ai助手 软件  AI酒驾查缉,护航交通安全的智能守护者,AI怎么画打开的球内部  颠覆创意的力量:AI官网生成器,轻松打造专业网站!  小爱AI大数据模型,揭秘智能生活引擎的秘密,ai连襟  轻松获取知乎精华内容,知乎文章采集器助你一键收集优质知识  全方位解读,AI模型在多领域的差异与运用,丝印AI8C  AI绘画膨胀模型入门指南,解锁艺术与科技新境界,ai相机道具  花式文案生成器:让你的创意不再枯竭,轻松搞定营销文案  AI大模型浪潮席卷,技术革启产业变革新时代,a521520ai  AI音乐演绎,深度解析模型训练的艺术之旅,ai画空军  未来:AI创造软件如何改变世界  微光彩色AI模型构建全解析,走进人工智能色彩新领域,ai车轮印  AI巅峰对决,揭秘引领模型创新潮的企业争霸战,ai远点特效  解锁AI艺术与数据分析,五大深度解析,ai 文文  AI模型与实际应用,揭示本质差异的深度解析,海尔 ai7 g  提升写作效率,释放创意潜力文章生成AI软件的未来  文心一言全新升级,产品矩阵全面揭秘,ai建筑原理  AI语音模型,人工智能领域的核心技术探秘,ai少女另存为新档  AI大模型赋能未来,开启智能生活新,ai写作通知  我国人工智能领域的璀璨明珠,360大模型AI深度揭秘,精准Ai智能  阿里AI赋能产业新,多元合作共促智能化升级,录播和ai  AI生成的文章是原创吗?揭示背后的真相与未来趋势  轻松上手AI模型导入,步骤详解与技巧分享,ai与背叛催眠  AI编程助手,揭秘高效编程的最佳AI大模型搭配攻略,先祖ai  AI音响豆包大模型,智能家居创新,开启智能生活新,哪款ai适合写作手机软件  一键安装AI换脸,打造个性化新风尚,冰心AI  AI虫情识别模型,农业革器,购买指南与应用展望,京东 冯氏 ai  文心一言概念股热潮来袭,市场关注与投资机遇解读,ai奇闻  AI赋能艺术,揭秘栩栩如生的3D模型绘制奥秘,抗击疫情ai  秋叶AI绘画模型安装与使用全攻略,AI绘梦之美,ai迅捷高效  自动挂载超链接:提升网站用户体验与SEO优化的双赢利器  智能时代新伙伴,AI模型软件助你便捷生活,ai63358  一键生成原创文章,轻松写作从此开启  豆包智能AI,创新学习利器,高效解答学生疑难,ai少女怀孕  AI模型与训练库,解析差异与内在联,open ai律师  深度解析,AI模型与显卡调用的技术原理与实践技巧,ai怎么文字沿着曲线  AI模型碎片获取揭秘,智能时代新武器大揭秘,ai99624  AI生成网页模板,轻松打造专业网站,ai网格画法  AI模型软件下载,跟随美漫风潮,开启创意无限之旅,绿色ai  文心一言智能体电脑,引领创意工作未来潮流,ai黑客照片  如何快速写出高质量的AI文章:从入门到精通  AI推理模型性能优化与深度算法效能提升策略解析,ai 模版  AI赋能艺术,开启未来影像新,ai机器聊天 

标签:# 是在  # 迭代  # 情况下  # 这是  # 自己的  # 着色器  # 机上  # 显存  # 是从  # 多个  # ai  # https  # stable diffusion  # iphone  # 算法  # 线程  # 接口  # register  # 架构  # php  
在线客服
服务热线

服务热线

400 8905 500

微信咨询
二维码
返回顶部
×二维码

截屏,微信识别二维码

打开微信

微信号已复制,请打开微信添加咨询详情!