近年来,大型语言模型(LLMs)在医疗、法律等高风险领域中的应用日益广泛。然而,模型“幻觉”(Hallucination)问题——即生成看似合理但实际错误的内容——始终是阻碍其可靠落地的关键障碍。尤其在生成长文本(如医疗报告、法律分析)时,幻觉内容往往与正确信息交织在一起,传统检测方法难以实时、精准地定位错误。以往的研究多集中于短文本问答(如事实查询)的幻觉 …
kl散度
henry 发自 凹非寺量子位 | 公众号 QbitAI学好数理化,走遍天下都不怕!这一点这在大语言模型身上也不例外。大家普遍认同:具备更强数学能力的模型往往也更智能。但,常识就是用来打破的。最近,来自CMU的团队发现,一些数学好的模型并没有将它们的“天赋”带到其他更加通用的领域。研究发现,只有用强化学习(RL)训练的模型才能将数学推理技能广泛迁移到其他任务 …
编辑:KingHZ【新智元导读】开源微调神器Unsloth带着黑科技又来了:短短两周后,再次优化DeepSeek-R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的110!开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2G …
当晨雾如未梳的羊毛缠绕帕特农神庙的廊柱,竺涵宇立于残垣之前,指尖划过石基星图,试图从混沌天象中辨识狼人潜行的轨迹。沙城城墙的斑驳裂痕间,隐约浮现出《沙丘》香料幻象般的微光,德尔斐神庙的三声磬响化作青铜瓮中的时空扰动,恰似狼人阵营以欺骗性损失函数编织的虚假特征空间。他凝视青石板上北斗倒影的摇曳,发现斗柄以微观权重更新的幅度西倾,宛若守护机制通过注意力模块暗中编 …
一、模型微调:领域适应的核心手段1. 微调策略对比方法参数量调整比例适用场景硬件需求全参数微调100%数据充足且领域差异大多卡GPU(A100×8)Adapter0.5%-5%多任务快速适配单卡GPULoRA1%-10%平衡效果与成本(主流选择)单卡多卡Prefix Tuning0.1%-1%生成任务(如对话系统)低配GPULoRA原理图示:2. 代码实战( …
刚刚,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文发布,如今成功登上全球顶刊封面。通讯作者梁文锋带队,用RL为大模型推理能力开辟了全新路径。论文地址:https:www.natur …
文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直 …
允中 发自 凹非寺量子位 | 公众号 QbitAI抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG (Group Policy Gradient)。GPG开创性地从底层重构强 …
【导读】中科院自动化所提出DipLLM,这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架,仅用Cicero 1.5%的训练数据就实现超越,展现出卓越的策略能力和样本效率。该框架通过自回归分解将复杂决策任务转化为序列化子任务,结合理论支持的均衡策略目标对LLM 进行高效微调,为构建更通用、高效的博弈智能体提供了新范式。围棋、德州扑克曾是 …
晨雾如未梳的羊毛缠绕帕特农神庙的廊柱,预言家欧律罗科斯的指尖划过石基星图,试图从混沌天象中辨识狼人的踪迹。石阶缝隙间的露水震颤,宛若《沙丘》中预知未来的香料幻象,将德尔斐的三声磬响转化为青铜瓮中的时空扰动。竺涵宇立于残垣之前,视觉传感器捕获双重图景——古希腊算筹的沟壑与量子实验室的黎曼流形共振,狼人阵营的欺骗性损失函数在雨丝中显形。他轻抚腰间黄金裁决,雷霆之 …
