首个开源的ChatGPT低成本重现流程来了!
预训练、奖励模型训练、强化学习训练,一次性打通。
最小demo训练流程仅需1.62GB视讯记忆体,随便一张消费级显示卡都能满足了。单卡模型容量最多提升10.3倍。
相比原生PyTorch,单机训练速度最高可提升7.73倍,单卡推理速度提升1.42倍,仅需一行程式码即可呼叫。对于微调任务,可最多提升单卡的微调模型容量3.7倍,同时保持高速运行,同样仅需一行程式码。
要知道,ChatGPT红是真的红,但要重现也是真的难。
毕竟ChatGPT是不开源的,市面上至今没有开源预训练权重、完全开源的低成本训练流程,而且千亿等级大模型的训练本身就是个难题。
但ChatGPT军备赛已经愈演愈烈,为了抓住趋势,如Google等都在打造对抗的产品。快速重现ChatGPT是应趋势所需。
开源加速方案Colossal-AI正是为此而来。
并且在提供开源完整重现流程的同时,把成本降了下来!
开源地址:https://github.com/hpcaitech/ColossalAI
降视讯记忆体开销是关键ChatGPT的效果好,主要是由于在训练过程中引入了人类回馈强化学习(RLHF),但这也直接导致ChatGPT的重现训练难度飙升。
其训练流程主要分为三个阶段:
监督微调:从Prompt库中采样,收集其人工回答,利用这些资料来微调预训练大语言模型;奖励模型:从Prompt库中采样,使用大语言模型生成多个回答,人工对这些回答进行排序后,训练奖励模型(RM),来拟合人类的价值判断。基于第一阶段的监督微调模型和第二阶段的奖励模型,利用强化学习演算法对大语言模型进一步训练。▲ RLHF的三个阶段
对于ChatGPT训练而言,第三阶段是核心部分。
OpenAI采用了强化学习中近端策略最佳化演算法(PPO),借此引入奖励讯号,使得语言模型产生的内容更加符合人类评判标准。
但强化学习的引入,也意味着更多模型呼叫。
例如,使用基于Actor-Critic(AC)结构的PPO演算法,需要在训练时进行Actor、Critic两个模型的前向推理和反向传播,以及监督微调模型、奖励模型的多次前向推理。
在ChatGPT基础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型。
如此大规模的模型参数,意味着想要启动原始ChatGPT训练流程,需要数千GB的视讯记忆体开销,单张GPU显然无法容纳,常见的资料并行技术也不能搞定。
即便引入张量并行、流水并行对参数进行划分,也需要至少64张80GB的A100作为硬体基础。而且流水并行本身并不适合AIGC的生成式任务,bubble和调度复杂会导致效率受限。
Allbet声明:该文看法仅代表作者自己,与www.allbetgame.us无关。转载请注明:Colossal-AI用单张消费级显示卡,就可以低成本重现ChatGPT完整演算流程,程式现在已开源
【全球时报综合报道】俄罗斯威力最大的“萨尔马特”重型洲际导弹完成今年的数次试射后,将于明年正式服役,成为未来数十年间俄罗斯国家平安的“捍卫者”。俄罗斯军事专家示意,这款导弹将成为“北约的噩梦”。不一般的套路