ChatGPT、AutoGPTA与10亿岗位冲击:GPT-4、GPT-5等迭代和AIGC、AGI生存_王骥_AZW3_MOBI_EPUB_PDF_电子书(无页码)_王骥
内容节选
三、大模型训练的四大技术挑战 机器学习的大规模训练技术面临的难度和挑战主要来自内存、通信、算力和调优四个方面。 1. 内存挑战 模型训练的内存占用可分为静态内存与动态内存两部分。静态内存好理解,动态内存是指模型在前向计算和反向传播的时候,会产生诸如前向输出、梯度输出、算子计算时的临时变量。这个临时变量的动态内存对模型训练有多大影响?这里举一个简单的例子。以华为的鹏程·盘古大模型为例,其2000亿的参数内存占用消耗了754GB,这属于静态内存;而在模型训练的过程中,由于有权重、激活、优化器状态,再加上自动微分,产生的临时变量需求就会高达3500GB内存,一个大模型训练就需要100多块具有32G内存的AI芯片。在这个案例中,动态内存一度接近静态内存的4倍,这就是变动内存的巨大影响。当然,这部分内存会在反向传播时逐渐被释放掉。 再比如,在ResNet50的一轮迭代模型训练中,观察显示,网络模型在运算过程中的内存占用不断增加,直到达到1.2GB的峰值;峰值过后,内存开始逐渐释放,内存占用慢慢降到320MB。当然,在一个step计算结束后仍有一部分内存驻留,使得内存保持在320MB。内存墙是指内存性能严重限制CPU性能发挥的现象。 因此,在模型训练的过程中,是否会遇到内存墙 ,主要是由动态内存决定。即使人们想尽一切办法去降低静态内存,实际上意义并不是很大,关键在于是否能够降低动态内存占用的峰值。 静态内存和动态内存相互独立但又相互制约,任意一侧的增大都会导致另一侧的显存空间变小,造成内存墙问题。在模型训练的过程中,静态内存和动态内存必须同时优化,这是个技术活儿。显然,为了能够让大模型运行起来,需要使用数据并行、模型并行和流水线并行等技术,但是这些技术的叠加必然会因为内存墙问题而降低AI芯片计算的吞吐量,这是一个很难解决的矛盾。 2. 通信挑战 大模型通过模型并行、流水线并行切分到AI集群之后,通信性能便会出现瓶颈,产生通信墙问题。原因在于: 大模型被切分到不同的机器设备上之后,仍然需要通信来将被切分到众多设备上的各个参数进行汇总。这些参数的汇总聚合是需要通信去联通的,显然,这就对通信提出了很高的要求。比如,是使用同步的更新策略,还是异步的更新策略?如何对模型局部变量进行更新?等等。 另外,由于专用的AI加速芯片中的内存与计算单元之间非常接近,使得芯片内的通信带宽很大,计算速度非常快;然而在模型集群中的网络传输速度又比较慢,这是远远不能与专用AI加速芯片的运算速率相匹配的。这时,有人可能会说,你直接增加带宽不能解决问题吗?这是不行的。 因为,随着机器规模的扩大,带宽的利用率将会越来越低,比如网络带宽从1GB达到100GB后,实际利用率会从接近100%迅速降至40%左右,所以高带宽的利用效果将会遇到瓶颈。同时,基于模型训练所需同步通信的聚合要求,由于大量的AI芯片和服务器之间进行频繁的同步,显然,其中最慢的一路通信将会决定整个AI集群的通信效率。所以,通信墙的挑战是必然的。 总之,大模型训练中的通信方案的设计,需要综合考虑数据样本量、数据参数量、计算类型、计算量、集群带宽拓扑和通信策略等众多因素,这样才能设计出一套性能较优的切分策略,最大化地提高通信比,提升通信效率。 3. 算力挑战 机器学习的大模型训练会增加对算力的需求,但是在大模型引入各项分布式并行技术的同时,会降低计算资源的利用率。 大规模训练技术不仅要求AI芯片的计算性能足够强悍,而且依赖于AI框架的大规模分布式训练的运行和调度效率,以及分布式并行等各种优化手段的权衡。其中的问题很复杂,这是一项繁杂的大工程。 4. 调优挑战 在数以千计甚至更多节点的集群上进行模型开发,可以想象这是多么困难的事情。所以对于机器学习的大模型训练来说,调优也是一项繁重且极具技术含量的挑战性工作。 面对这一挑战,可以大致从两个方面来考虑。一方面,要对硬件集群进行科学的设计与管理,需要保证计算的正确性、性能和可用性,比如某一台机器坏了,需要快速恢复训练中的参数;另一方面,需要考虑降低工程师对大模型进行并行切分的难度,提升算法工程师分布式调试调优的效率。百度智能云:《超大规模AI异构计算集群的设计和优化》,2022年3月22日,B站,https://www.bilibili.com/read/cv15780480/。 这些说起来简单,做起来就非常难了,特别是面对超大模型的训练。比如,英伟达在“Effi cient Large-Scale Language Model Training on GPU Clusters”这篇论文中有个预估:1750亿参数的模型,在3000亿样本的规模下,即使使用1024张A100显卡,也需要训练34天。维护过集群或做过分布式学习的人可能都会知道,这么多显卡在这么长时间之内不出现故......
- 信息
- 作者介绍
- 第一章 横空出世的ChatGPT与AutoGPT
- 一、奇点忧虑:ChatGPT、GPT-4和AutoGPT
- 二、惊艳出场
- 三、何方神圣
- 四、成长简况
- 五、ChatGPT魅力四架构
- 六、ChatGPT的特色优势
- 七、ChatGPT的局限性
- 第二章 ChatGPT产生、强大的原因与优化方向
- 一、ChatGPT产生的基础与原因
- 二、ChatGPT为何如此强大
- 三、ChatGPT不易被追赶的原因
- 四、ChatGPT与普通AI工具的区别
- 五、ChatGPT未来的优化方向
- 第三章 认知ChatGPT、AutoGPT需先了解这些概念
- 一、人工智能、机器学习、深度学习的概念与区别
- 二、监督、无监督、半监督与自监督学习及其区别
- 三、强化学习、迁移学习与神经网络、深度学习的关系
- 四、模型、预训练模型、算法和程序及其区别
- 五、大模型及其与深度学习的关系
- 第四章 大模型,AI迈向“通用”的里程碑
- 一、AI大模型概念
- 二、大模型的产生及发展
- 三、大模型的核心技术与方向
- 四、大模型的作用与解决的问题
- 五、Attention机制与Transformer网络
- 六、“预训练+微调”技术策略
- 七、微调模型
- 第五章 ChatGPT是如何“炼”出来的
- 一、人工智能炼成粗线
- 二、ChatGPT训练概况
- 三、ChatGPT训练的三大阶段
- 四、ChatGPT依托架构的训练
- 五、ChatGPT训练的数据与算力
- 第六章 大模型训练为何如此艰难
- 一、从单机训练到分布式训练
- 二、大模型训练的复杂性
- 三、大模型训练的四大技术挑战
- 四、大模型训练的成本挑战
- 第七章 AIGC:“2022十大科技前沿发明”之首
- 一、AIGC三大发展阶段
- 二、AIGC元年的辉煌
- 三、AIGC的应用场景
- 四、AIGC与PGC、UGC的区别
- 五、AIGC在新模型下所向披靡
- 第八章 ChatGPT及AIGC的广泛应用场景
- 一、ChatGPT自然语言的20个细分应用
- 二、教育行业的应用
- 三、医疗保健行业的应用
- 四、新闻传媒与影视行业的应用
- 五、娱乐、游戏、软件领域的应用
- 六、金融、数字经济、工商业等行业的应用
- 第九章 ChatGPT使用示范、常用技巧与应用工具
- 一、48个ChatGPT使用示例
- 二、不同人群的使用
- 三、不同场景的使用
- 四、使用ChatGPT的常用技巧
- 五、围绕ChatGPT的六大工具与应用
- 第十章 AutoGPT:通向通用人工智能的全新之门
- 一、AutoGPT概念与4月惊奇
- 二、AutoGPT的功能、模块与重大意义
- 三、AutoGPT的优缺点
- 四、AutoGPT与ChatGPT的主要区别
- 五、AutoGPT与RPA+AI比较
- 六、AutoGPT的使用与注意事项
- 第十一章 GPT-4、GPT-5等迭代与AGI冲击及对齐研究
- 一、GPT-4:多模态AI新的里程碑
- 二、GPT-4与ChatGPT的比较
- 三、未来GPT-5的超级能力
- 四、通用智力与通用智能之辨
- 五、AI工具对人类的最大威胁
- 六、AI对齐研究
- 第十二章 10亿岗位冲击、何去何从与应对策略
- 一、ChatGPT、AutoGPT等对商业巨头的冲击
- 二、ChatGPT、AutoGPT等对工种岗位的冲击
- 三、面对威胁,人类何去何从
- 四、人类应对策略和需要具备哪些能力
- 内容介绍