大模型训练配置计算

一、NVIDIA A100 计算能力

A100在不同精度和计算模式下的峰值计算能力:

  • FP64(双精度浮点运算):9.7 TFLOPS
  • FP32(单精度浮点运算):19.5 TFLOPS
  • TF32(Tensor Float 32,用于深度学习):156 TFLOPS
  • FP16(半精度浮点运算):312 TFLOPS
  • INT8(8位整数运算):624 TOPS (Tera Operations Per Second)

二、A100使用效率

因为训练过程中常常需要数据通信,占用不少时间,导致使用效率通常低于50%,技术报告中常见为40%左右。

三、使用20B Tokens,训练1B参数的模型的系统配置,训练时间

1.显存占用

1B参数,1(2Bytes 模型参数+2Bytes 梯度+4Bytes优化器一阶状态+4Bytes优化器二阶状态+4Bytes高精度参数)=1*16 = 16GB。

训练过程中,每批数据不同,需要占用的显存不同。batch_size<10时,可以和参数占用显存相同。

合计需要:16GB+16GB= 32GB

单张A100卡可以容纳模型。

2.训练时间计算

单张A100卡,则可以用公式初步计算训练时间:

IMG_256

图:粗略估计,可以是6-8倍

训练时间 = 8*20*1000,000,000*1*1000,000,000/1/312/1000,000,000,000/0.4/3600=356小时。

即,系数使用8,使用单张A100,20B Tokens,训练1B参数模型,大约需要356小时,或者15天。

四、使用40B Tokens,训练2B参数的模型的系统配置,训练时间

同上计算,单张卡可以容纳模型。使用单张卡预计需要4*15=60天。如果用4张卡,预计依然可以用15天左右完成。

五、使用300Btokens,训练175B参数模型,训练时间

单张卡无法加载175B模型,仅仅计算训练时间和配置。

1. 训练时间

训练时间=8*300*1000000000*175*1000000000/1/312/1000000000000/0.4/3600=934829小时

2.如果想30天训练完成,则需要配置:

934829/30/24=1298张 GPU卡。

3.更换参数

如果选择6作为系数,显卡使用率为46%, 同样计算,则需要609671小时;或者使用846张卡一个月完成训练。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容