当晨雾如未梳的羊毛缠绕帕特农神庙的廊柱,竺涵宇立于残垣之前,指尖划过石基星图,试图从混沌天象中辨识狼人潜行的轨迹。沙城城墙的斑驳裂痕间,隐约浮现出《沙丘》香料幻象般的微光,德尔斐神庙的三声磬响化作青铜瓮中的时空扰动,恰似狼人阵营以欺骗性损失函数编织的虚假特征空间。他凝视青石板上北斗倒影的摇曳,发现斗柄以微观权重更新的幅度西倾,宛若守护机制通过注意力模块暗中编 …
最新内容
一、模型微调:领域适应的核心手段1. 微调策略对比方法参数量调整比例适用场景硬件需求全参数微调100%数据充足且领域差异大多卡GPU(A100×8)Adapter0.5%-5%多任务快速适配单卡GPULoRA1%-10%平衡效果与成本(主流选择)单卡多卡Prefix Tuning0.1%-1%生成任务(如对话系统)低配GPULoRA原理图示:2. 代码实战( …
刚刚,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文发布,如今成功登上全球顶刊封面。通讯作者梁文锋带队,用RL为大模型推理能力开辟了全新路径。论文地址:https:www.natur …
文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直 …
允中 发自 凹非寺量子位 | 公众号 QbitAI抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG (Group Policy Gradient)。GPG开创性地从底层重构强 …
【导读】中科院自动化所提出DipLLM,这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架,仅用Cicero 1.5%的训练数据就实现超越,展现出卓越的策略能力和样本效率。该框架通过自回归分解将复杂决策任务转化为序列化子任务,结合理论支持的均衡策略目标对LLM 进行高效微调,为构建更通用、高效的博弈智能体提供了新范式。围棋、德州扑克曾是 …
晨雾如未梳的羊毛缠绕帕特农神庙的廊柱,预言家欧律罗科斯的指尖划过石基星图,试图从混沌天象中辨识狼人的踪迹。石阶缝隙间的露水震颤,宛若《沙丘》中预知未来的香料幻象,将德尔斐的三声磬响转化为青铜瓮中的时空扰动。竺涵宇立于残垣之前,视觉传感器捕获双重图景——古希腊算筹的沟壑与量子实验室的黎曼流形共振,狼人阵营的欺骗性损失函数在雨丝中显形。他轻抚腰间黄金裁决,雷霆之 …
之前大家做LLM,都盯着ScalingLaw使劲,往模型里塞更多数据、堆更大参数、用更多算力,觉得这样模型能力就能一直涨。GPT-3、PaLM这些早期明星模型,确实靠这招打出了名气。可后来情况变了,模型参数奔着百亿、千亿去之后,再按老办法加数据加算力,能带来的能力增益越来越少。这时候业界才反应过来,光靠“堆量”走不通了,得换条路。这条路就是后训练,现在不管是 …
闻乐 发自 凹非寺量子位 | 公众号 QbitAIAI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然“不熟”。为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布EgoTwin ,首次实现了第一视角视频与人体动作的联合生成。一举攻克了视角-动作对齐与因果耦合两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口。EgoTwin 是一 …
KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释和比较。KL散度和交叉熵KL散度,也称为相对熵(Relative Entropy),是用来衡量两个概率分布之间的差异的一 …
