Jelech

TimeFM论文解析

说起来大家都在卷LLM,但其实时间序列预测这个老古董领域,前段时间也被大模型范式彻底洗礼了。以前做时序,大家习惯了“一个场景训一个模型”,为了某个商品的销量预测,LGBM调参能调到吐。现在Google直接掀桌子搞了个 TimesFM,核心思路就一个:用搞GPT的那一套来降维打击时间序列。 这篇论文很有意思,剥开复杂的公式,一起来看看它做了什么。 拿什么架构解决什么问题?  TimesF...

供应链场景下百万级 SKU 异构分布式强化学习系统:RL-Infra 工程实践全解析

前言:为什么供应链需要强化学习,以及为什么它如此之难 供应链的补货决策表面上是一个预测问题——预测未来需求,然后计算安全库存和补货量。但现实远比这复杂。每一个SKU的库存水平、在途量、供应商交期波动、促销计划、季节因素之间存在高度耦合。一个SKU的缺货可能导致替代品的需求暴增,连锁反应横跨整个品类。传统的运筹优化方法在面对数百万SKU、数十个仓、数百个供应商的组合爆炸时,要么求解时间不可接...

2025:在叹息中清醒,立场鲜明地做自己

写在开头 2025是很复杂的一年。年初还在应对莫名其妙的加班和被打压的价值评估;年中人事变动后,终于开始做点想做的事;下半年生活刚安稳,年末又迎来感情波动和部门剧变,导致没法继续深耕,甚至陷入了短暂的安逸与躺平。 不过还好,又拿了一年最佳绩效,算下来连续4年第一了。(至于为啥工资还是中下水平,确实有点难蚌。) 现在逐渐习惯了这种高压、极快的工作与生活节奏,也慢慢懂了以前大佬跟我说的那句...

ROME论文解读:借ROCK与ROLL构建Agent由来的笔记

最近阿里巴巴新出了一篇论文:《Let It Flow: Agentic Crafting on Rock and Roll》 我研读了几天,字里行间看到的都是我的新框架的东西,想一想自己还在做设计和开发,别人都已经发论文了,心里略感悲凉。本文做一些阅读笔记和总结。 前言 这篇论文提出了一个名为 ALE (Agentic Learning Ecosystem) 的全栈生态系统。最有意...

强化学习训练加速: 多种编译器/语言对性能的影响

摘要: 本报告旨在评估不同编程语言及编译优化技术在不同复杂度(简单逻辑 vs 复杂交互)RL 环境下的性能差异。测试涵盖了从小规模标量计算到大规模矩阵运算的典型场景。 源码 1. 环境定义 仅测试使用不同语言或架构实现相同的环境的性能差异, 不测试不同算法的性能差异. 1.1 Hello World: CartPole 特征: 极简物理逻辑,仅涉及少量标量...

算力贫民窟下的AI研究机会

最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?》 突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢? 因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘 %%{ init: { "theme": "forest", ...