Jelech

强化学习训练加速: 多种编译器/语言对性能的影响

摘要: 本报告旨在评估不同编程语言及编译优化技术在不同复杂度(简单逻辑 vs 复杂交互)RL 环境下的性能差异。测试涵盖了从小规模标量计算到大规模矩阵运算的典型场景。 源码 1. 环境定义 仅测试使用不同语言或架构实现相同的环境的性能差异, 不测试不同算法的性能差异. 1.1 Hello World: CartPole 特征: 极简物理逻辑,仅涉及少量标量...

算力贫民窟下的AI研究机会

最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?》 突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢? 因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘 %%{ init: { "theme": "base", ...

DDP做强化学习分布式多机多卡训练加速

前话 前文提到了ray.rllib来做分布式训练. 但对整个代码的改造会很复杂, 如果只需要简单的进行分布式多机多卡训练,还可以使用pytorch自带的DDP DDP分布式同步原理 在反向传播后,通过高效的AllReduce操作同步所有GPU的梯度均值,确保各GPU使用相同的梯度更新本地模型参数,从而实现分布式训练的参数一致性. 以下为DDP训练的数据拆分示意图: 代码修改关键点...