一种优化深度学习模型训练的新方法,一种为人工智能提供动力的快速发展的工具,可以大幅削减人工智能的能源需求。
由密歇根大学开发的开源优化框架在训练期间研究深度学习模型,确定能耗与训练速度之间的最佳权衡。
电气工程和计算机科学副教授MosharafChowdhury表示:“在极端规模下,训练GPT-3模型一次仅消耗1,287兆瓦时,足以为美国普通家庭供电120年。”
(资料图片仅供参考)
借助Chowdhury和他的团队开发的新能源优化框架Zeus,无需任何新硬件即可将此类数字减少多达75%,而且对训练模型所需的时间影响很小。它在波士顿举行的2023年USENIX网络系统设计与实现(NSDI)研讨会上发表。
在过去三年中,大量深度学习模型的主流用途呈爆炸式增长,从图像生成模型和富有表现力的聊天机器人到为TikTok和亚马逊提供支持的推荐系统。随着云计算的排放量已经超过商业航空,人工智能增加的气候负担成为一个重大问题。
“现有工作主要侧重于优化深度学习训练以加快完成速度,通常不考虑对能源效率的影响,”计算机科学与工程博士生、该研究的共同第一作者Jae-WonChung说。“我们发现我们注入GPU的能量正在递减,这使我们能够显着降低能耗,而且速度相对较慢。”
深度学习是一系列利用多层人工神经网络来处理一系列常见机器学习任务的技术。这些也称为深度神经网络(DNN)。模型本身非常复杂,从机器学习中使用过的一些最庞大的数据集中学习。正因为如此,他们极大地受益于图形处理单元(GPU)的多任务处理能力,GPU消耗了70%的能量用于训练其中一个模型。
Zeus使用两个软件旋钮来降低能耗。一个是GPU功率限制,它会降低GPU的功率使用,同时减慢模型的训练速度,直到再次调整设置。另一个是深度学习模型的批量大小参数,它控制模型在更新模型表示它在数据中找到的关系的方式之前处理的训练数据中的样本数量。更高的批次大小减少了训练时间,但增加了能量消耗。
Zeus能够实时调整这些设置中的每一个,寻求最佳权衡点,在该点上能量使用最小化,同时对训练时间的影响尽可能小。在示例中,该团队能够通过显示这两个参数的所有可能组合来直观地展示此权衡点。虽然这种程度的彻底性在实践中不会发生在特定的训练工作中,但Zeus将利用机器学习的重复性来达到非常接近的程度。
“幸运的是,公司在更新的数据上一遍又一遍地训练同一个DNN,频率高达每小时一次。我们可以通过观察这些重复来了解DNN的行为,”计算机科学与工程专业的新近博士毕业生JieYou说。和该研究的共同主要作者。
Zeus是第一个旨在为各种机器学习任务和GPU插入现有工作流的框架,无需对系统的硬件或数据中心基础设施进行任何更改即可降低能耗。
此外,该团队还开发了叠加在Zeus之上的补充软件,以进一步减少碳足迹。这款名为Chase的软件在低碳能源可用时优先考虑速度,并在高峰时段以牺牲速度为代价选择效率,高峰时段更有可能需要增加煤炭等碳密集型能源的生产。Chase在去年的CarbonHack黑客马拉松中获得第二名,并将于5月4日在国际学习代表研讨会上展示。
计算机科学与工程专业的硕士生杨振宁说:“由于数据集规模大或数据法规的原因,并不总是能够轻松地将DNN培训工作迁移到其他位置。”“将培训工作推迟到更环保的时间框架也可能不是一种选择,因为DNN必须使用最新的数据进行培训,并迅速部署到生产中以实现最高的准确性。
“我们的目标是设计和实施不与这些现实限制相冲突的解决方案,同时仍然减少DNN培训的碳足迹。”