ChatGPT、AutoGPTA与10亿岗位冲击:GPT-4、GPT-5等迭代和AIGC、AGI生存_王骥_AZW3_MOBI_EPUB_PDF_电子书(无页码)_王骥

内容节选

三、大模型训练的四大技术挑战 机器学习的大规模训练技术面临的难度和挑战主要来自内存、通信、算力和调优四个方面。 1. 内存挑战 模型训练的内存占用可分为静态内存与动态内存两部分。静态内存好理解,动态内存是指模型在前向计算和反向传播的时候,会产生诸如前向输出、梯度输出、算子计算时的临时变量。这个临时变量的动态内存对模型训练有多大影响?这里举一个简单的例子。以华为的鹏程·盘古大模型为例,其2000亿的参数内存占用消耗了754GB,这属于静态内存;而在模型训练的过程中,由于有权重、激活、优化器状态,再加上自动微分,产生的临时变量需求就会高达3500GB内存,一个大模型训练就需要100多块具有32G内存的AI芯片。在这个案例中,动态内存一度接近静态内存的4倍,这就是变动内存的巨大影响。当然,这部分内存会在反向传播时逐渐被释放掉。 再比如,在ResNet50的一轮迭代模型训练中,观察显示,网络模型在运算过程中的内存占用不断增加,直到达到1.2GB的峰值;峰值过后,内存开始逐渐释放,内存占用慢慢降到320MB。当然,在一个step计算结束后仍有一部分内存驻留,使得内存保持在320MB。内存墙是指内存性能严重限制CPU性能发挥的现象。 因此,在模型训练的过程中,是否会遇到内存墙 ,主要是由动态内存决定。即使人们想尽一切办法去降低静态内存,实际上意义并不是很大,关键在于是否能够降低动态内存占用的峰值。 静态内存和动态内存相互独立但又相互制约,任意一侧的增大都会导致另一侧的显存空间变小,造成内存墙问题。在模型训练的过程中,静态内存和动态内存必须同时优化,这是个技术活儿。显然,为了能够让大模型运行起来,需要使用数据并行、模型并行和流水线并行等技术,但是这些技术的叠加必然会因为内存墙问题而降低AI芯片计算的吞吐量,这是一个很难解决的矛盾。 2. 通信挑战 大模型通过模型并行、流水线并行切分到AI集群之后,通信性能便会出现瓶颈,产生通信墙问题。原因在于: 大模型被切分到不同的机器设备上之后,仍然需要通信来将被切分到众多设备上的各个参数进行汇总。这些参数的汇总聚合是需要通信去联通的,显然,这就对通信提出了很高的要求。比如,是使用同步的更新策略,还是异步的更新策略?如何对模型局部变量进行更新?等等。 另外,由于专用的AI加速芯片中的内存与计算单元之间非常接近,使得芯片内的通信带宽很大,计算速度非常快;然而在模型集群中的网络传输速度又比较慢,这是远远不能与专用AI加速芯片的运算速率相匹配的。这时,有人可能会说,你直接增加带宽不能解决问题吗?这是不行的。 因为,随着机器规模的扩大,带宽的利用率将会越来越低,比如网络带宽从1GB达到100GB后,实际利用率会从接近100%迅速降至40%左右,所以高带宽的利用效果将会遇到瓶颈。同时,基于模型训练所需同步通信的聚合要求,由于大量的AI芯片和服务器之间进行频繁的同步,显然,其中最慢的一路通信将会决定整个AI集群的通信效率。所以,通信墙的挑战是必然的。 总之,大模型训练中的通信方案的设计,需要综合考虑数据样本量、数据参数量、计算类型、计算量、集群带宽拓扑和通信策略等众多因素,这样才能设计出一套性能较优的切分策略,最大化地提高通信比,提升通信效率。 3. 算力挑战 机器学习的大模型训练会增加对算力的需求,但是在大模型引入各项分布式并行技术的同时,会降低计算资源的利用率。 大规模训练技术不仅要求AI芯片的计算性能足够强悍,而且依赖于AI框架的大规模分布式训练的运行和调度效率,以及分布式并行等各种优化手段的权衡。其中的问题很复杂,这是一项繁杂的大工程。 4. 调优挑战 在数以千计甚至更多节点的集群上进行模型开发,可以想象这是多么困难的事情。所以对于机器学习的大模型训练来说,调优也是一项繁重且极具技术含量的挑战性工作。 面对这一挑战,可以大致从两个方面来考虑。一方面,要对硬件集群进行科学的设计与管理,需要保证计算的正确性、性能和可用性,比如某一台机器坏了,需要快速恢复训练中的参数;另一方面,需要考虑降低工程师对大模型进行并行切分的难度,提升算法工程师分布式调试调优的效率。百度智能云:《超大规模AI异构计算集群的设计和优化》,2022年3月22日,B站,https://www.bilibili.com/read/cv15780480/。 这些说起来简单,做起来就非常难了,特别是面对超大模型的训练。比如,英伟达在“Effi cient Large-Scale Language Model Training on GPU Clusters”这篇论文中有个预估:1750亿参数的模型,在3000亿样本的规模下,即使使用1024张A100显卡,也需要训练34天。维护过集群或做过分布式学习的人可能都会知道,这么多显卡在这么长时间之内不出现故......

  1. 信息
  2. 作者介绍
  3. 第一章 横空出世的ChatGPT与AutoGPT
  4. 一、奇点忧虑:ChatGPT、GPT-4和AutoGPT
  5. 二、惊艳出场
  6. 三、何方神圣
  7. 四、成长简况
  8. 五、ChatGPT魅力四架构
  9. 六、ChatGPT的特色优势
  10. 七、ChatGPT的局限性
  11. 第二章 ChatGPT产生、强大的原因与优化方向
  12. 一、ChatGPT产生的基础与原因
  13. 二、ChatGPT为何如此强大
  14. 三、ChatGPT不易被追赶的原因
  15. 四、ChatGPT与普通AI工具的区别
  16. 五、ChatGPT未来的优化方向
  17. 第三章 认知ChatGPT、AutoGPT需先了解这些概念
  18. 一、人工智能、机器学习、深度学习的概念与区别
  19. 二、监督、无监督、半监督与自监督学习及其区别
  20. 三、强化学习、迁移学习与神经网络、深度学习的关系
  21. 四、模型、预训练模型、算法和程序及其区别
  22. 五、大模型及其与深度学习的关系
  23. 第四章 大模型,AI迈向“通用”的里程碑
  24. 一、AI大模型概念
  25. 二、大模型的产生及发展
  26. 三、大模型的核心技术与方向
  27. 四、大模型的作用与解决的问题
  28. 五、Attention机制与Transformer网络
  29. 六、“预训练+微调”技术策略
  30. 七、微调模型
  31. 第五章 ChatGPT是如何“炼”出来的
  32. 一、人工智能炼成粗线
  33. 二、ChatGPT训练概况
  34. 三、ChatGPT训练的三大阶段
  35. 四、ChatGPT依托架构的训练
  36. 五、ChatGPT训练的数据与算力
  37. 第六章 大模型训练为何如此艰难
  38. 一、从单机训练到分布式训练
  39. 二、大模型训练的复杂性
  40. 三、大模型训练的四大技术挑战
  41. 四、大模型训练的成本挑战
  42. 第七章 AIGC:“2022十大科技前沿发明”之首
  43. 一、AIGC三大发展阶段
  44. 二、AIGC元年的辉煌
  45. 三、AIGC的应用场景
  46. 四、AIGC与PGC、UGC的区别
  47. 五、AIGC在新模型下所向披靡
  48. 第八章 ChatGPT及AIGC的广泛应用场景
  49. 一、ChatGPT自然语言的20个细分应用
  50. 二、教育行业的应用
  51. 三、医疗保健行业的应用
  52. 四、新闻传媒与影视行业的应用
  53. 五、娱乐、游戏、软件领域的应用
  54. 六、金融、数字经济、工商业等行业的应用
  55. 第九章 ChatGPT使用示范、常用技巧与应用工具
  56. 一、48个ChatGPT使用示例
  57. 二、不同人群的使用
  58. 三、不同场景的使用
  59. 四、使用ChatGPT的常用技巧
  60. 五、围绕ChatGPT的六大工具与应用
  61. 第十章 AutoGPT:通向通用人工智能的全新之门
  62. 一、AutoGPT概念与4月惊奇
  63. 二、AutoGPT的功能、模块与重大意义
  64. 三、AutoGPT的优缺点
  65. 四、AutoGPT与ChatGPT的主要区别
  66. 五、AutoGPT与RPA+AI比较
  67. 六、AutoGPT的使用与注意事项
  68. 第十一章 GPT-4、GPT-5等迭代与AGI冲击及对齐研究
  69. 一、GPT-4:多模态AI新的里程碑
  70. 二、GPT-4与ChatGPT的比较
  71. 三、未来GPT-5的超级能力
  72. 四、通用智力与通用智能之辨
  73. 五、AI工具对人类的最大威胁
  74. 六、AI对齐研究
  75. 第十二章 10亿岗位冲击、何去何从与应对策略
  76. 一、ChatGPT、AutoGPT等对商业巨头的冲击
  77. 二、ChatGPT、AutoGPT等对工种岗位的冲击
  78. 三、面对威胁,人类何去何从
  79. 四、人类应对策略和需要具备哪些能力
  80. 内容介绍