好项目分享
来看看又收集到什么有趣的项目!不定期更新!
来看看又收集到什么有趣的项目!不定期更新!
摘要: 本报告旨在评估不同编程语言及编译优化技术在不同复杂度(简单逻辑 vs 复杂交互)RL 环境下的性能差异。测试涵盖了从小规模标量计算到大规模矩阵运算的典型场景。 源码 1. 环境定义 仅测试使用不同语言或架构实现相同的环境的性能差异, 不测试不同算法的性能差异. 1.1 Hello World: CartPole 特征: 极简物理逻辑,仅涉及少量标量...
最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?》 突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢? 因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘 %%{ init: { "theme": "base", ...
逐步学习如何优化模型推理
从零开始的RL工程学习之路
导语 Fast-MCTD 是 KAIST 团队对传统蒙特卡洛树扩散(MCTD)的加速方案。原始 MCTD 在复杂规划任务中存在明显的计算瓶颈,因此团队尝试从并行化和稀疏化两个方向来缩短推理时间,同时维持可接受的决策质量。 传统规划方法的瓶颈 方法 工作机制 主要问题 影响 ...
最近整理了一下未来目标达成的强化学习框架的整体架构 系统整体架构图 graph TB subgraph "Python Training Side" L[Learner<br/>PyTorch训练器] RB[ReplayBuffer<br/>经验回放缓冲区] WS[Weight Server<br/&g...
一、核心概念 Agent(智能体):在环境中执行动作并学习策略的主体。 Environment(环境):智能体所处的外部系统,接收智能体的动作并返回新的状态和奖励。 State(状态):环境在某一时刻的描述,通常用向量表示。 Action(动作):智能体在某一状态下可以采取的操作。 Reward...
Go ONNX模型加载教程 环境准备 安装Go环境(建议version < 1.20, 发现1.20运行有问题, 本实例使用v1.17.13) 安装必要的依赖包: go get github.com/owulveryck/onnx-go go get gorgonia.org/gorgonia 项目结构 ```pl...
前话 前文提到了ray.rllib来做分布式训练. 但对整个代码的改造会很复杂, 如果只需要简单的进行分布式多机多卡训练,还可以使用pytorch自带的DDP DDP分布式同步原理 在反向传播后,通过高效的AllReduce操作同步所有GPU的梯度均值,确保各GPU使用相同的梯度更新本地模型参数,从而实现分布式训练的参数一致性. 以下为DDP训练的数据拆分示意图: 代码修改关键点...