之前大家做LLM,都盯着ScalingLaw使劲,往模型里塞更多数据、堆更大参数、用更多算力,觉得这样模型能力就能一直涨。GPT-3、PaLM这些早期明星模型,确实靠这招打出了名气。可后来情况变了,模型参数奔着百亿、千亿去之后,再按老办法加数据加算力,能带来的能力增益越来越少。这时候业界才反应过来,光靠“堆量”走不通了,得换条路。这条路就是后训练,现在不管是 …
kl散度
闻乐 发自 凹非寺量子位 | 公众号 QbitAIAI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然“不熟”。为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布EgoTwin ,首次实现了第一视角视频与人体动作的联合生成。一举攻克了视角-动作对齐与因果耦合两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口。EgoTwin 是一 …
KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释和比较。KL散度和交叉熵KL散度,也称为相对熵(Relative Entropy),是用来衡量两个概率分布之间的差异的一 …
鹭羽 发自 凹非寺量子位 | 公众号 QbitAI从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!先来看一个前方潜水员拍摄的“真实”海底世界Vlog:华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI。这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架 …
