学习贯彻党的二十届四中全会精神
华商电讯网
KCMEDIA@ALIYUN.COM

国产大模型激战春节档,里程碑突破尚未出现丨《AGI之路》最新深度实录

来源:消费日报网 编辑:张宁光 2026-02-27 21:55:02 阅读量:0
国产大模型激战春节档,2026谁能跑到最后核心看4点

文丨李海伦

编辑丨徐青阳

2026年春节前夕,国内大模型市场迎来了一场前所未有的集体亮相。Kimi 2.5、GLM-5、Mini Max M2.5、Qwen3-Max-Thinking……不到一个月内,主流厂商几乎悉数登场;字节跳动的Seedance 2.0刷爆社交媒体、各大互联网厂商纷纷推出AI红包玩法。

这场声势浩大的“春节档混战”,既是各家技术实力的集中展示,也是大模型从“圈内话题”全面走向大众的一个缩影。

时间拨回一年前的春节,DeepSeek R1横空出世,以极低的训练成本和媲美顶尖模型的性能,迅速从技术圈的热议话题蔓延为全民热议现象。

到2026年,从一枝独秀到百花齐放,国产大模型在一年间完成了怎样的跨越?迭代提速背后,究竟是真正的技术突破,还是工程优化的集体狂奔?国产模型与欧美顶尖模型的差距,是在缩小还是在以另一种方式拉大?真正的护城河,又在何处?

围绕这些问题,腾讯科技《AGI之路》系列直播第11期,邀请到了飞鸟实验室主任、河南工业大学副校长、西安交通大学中医药复杂性研究中心主任李鹏教授,复旦大学教授、上海市数据科学重点实验室主任肖仰华教授,华中师范大学人工智能教育学部助理教授熊宇轩三位学者,展开了一场深度探讨和交流。

在这场交流会中,三位学者给出了几个值得关注的核心判断: 

  1. 春节档已从黄金窗口变成必争之地。2025年DeepSeek确立了春节档标杆效应,加之AI迭代节奏持续加快,各家都不愿意在这个时间节点上缺席。

  2. 春节营销拉得来流量,但AI时代用户忠诚度极低,随时在各模型间切换,真正的留存靠产品体验与数据迁移成本。

  3. 本轮集中发布以增量优化为主,各家更新集中在工程性优化,与去年DeepSeek的GRPO、MoE等底层创新相比,里程碑级突破尚未出现。

  4. 国内很多厂商大模型普遍走编程和Agent路线,出结果快、便于融资,但定位模糊、什么都想做的反而最危险,通用与垂直最终将分化共存。

  5. 国产模型与欧美的能力差距在明显缩小,但评测话语权仍在对方手中,软硬件协同闭环国内尚未形成,一旦差距拉开将是涌现级别的鸿沟。

  6. 大模型产品范式正在升级,从聊天对话转向异步智能体协作,人只在关键节点介入决策,其余交由Agent完成。

  7. AI的下一个隐形门槛是安全与情感能力,不该访问的数据不去碰、不该说的话不开口是底线,能共情、善解人意、让用户用得舒心则是上限。

  8. 2026年谁能跑到最后,核心看几个层面:独特数据资产、推理成本的数量级下降、大规模系统集成能力,以及软硬件深度绑定的闭环能力等。

以下是交流实录完整版,在不改变原意的情况下稍做精编:

01 AI大模型扎堆春节档:从黄金窗口到军备竞赛

郝博阳:这次春节档,几乎所有主流厂商都在不到一个月内集中发布了最新模型,比如最早从Kimi 2.5开始,随后GLM-5、Mini Max-M2.5、Qwen3-Max-Thinking接连亮相,除了DeepSeek外几乎无一缺席。为什么大家都不约而同地选择这个时间节点发布?请三位老师谈谈各自的看法。

李鹏:其实在AI大模型兴起之前,互联网时代就已经确立了一个规律:春节是推广新产品的黄金窗口。春节期间具备几个显著特点:

第一,用户数量庞大,大家趁假期进行社交活动,也更愿意尝试新产品;

第二,具有聚集效应,一家老小共处一室,好的产品口耳相传,传播速度极快;

第三,工作压力小、娱乐时间多,更有利于各类产品迅速扩散。从互联网公司到如今的AI公司,春节一直是绝佳的黄金节点,对AI公司而言效益可能更大。

2025年春节DeepSeek的巨大成功便是有力印证。那时国内普通用户还大多没有使用这类工具,但DeepSeek的爆发一举点燃了整个市场,甚至频繁出现因访问人数过多而无法正常回复的情况。这也证明了春节时刻AI产品爆发的巨大可能性。所以今年大家都希望借助春节引爆自己的爆款产品。

肖仰华:我再补充一个有意思的视角。春节是中国最长的假期,现在已经延伸至八九天,加上年前年后,可能长达十来天。

在人工智能时代,这十来天可能就是一个很关键的“待机窗口”。从商业竞争角度来说,如果你用上了这十天,但是竞争对手没用,差距就会拉开。这间接体现出一点:当下AI技术的迭代速度真的已经按周计算,半个月可能就是一代新产品。大家扎堆春节档竞争,也正是这种极速迭代节奏的体现。

熊宇轩:前两位老师说得非常全面了,我再从几个角度补充。

第一,去年Deepseek在春节期间发布后赢得极大的社会关注度,各厂商因此意识到春节能有效吸引用户注意力,从而获得新版本的第一批种子用户。春节期间积累的用户和使用场景,可以在节后持续延伸,带动用户量自然增长,并为后续产品研发积累先发优势。

另一方面,目前各家模型的竞争已经非常白热化。我自己近期正在使用 Kimi 的 K2.5 和智谱的 GLM-5,感觉效果很好,解决了不少实际问题。紧接着,Mini Max-M2.5又出来了,还有字节的 Seed 2.0 也抢在这个时候发布。

各家竞争压力极大,而且部分国产模型已经开始在国际上引发关注。国内各大模型厂商都非常希望抓住这个窗口,集中宣传自己的最新进展。虽然各家的具体技术路线有所差异,但都反映出相近的发展趋势,例如:对多模态能力、推理效率、稀疏模型的关注。这一波集中发布也给了从业者一个共同审视和评判技术进展的机会。

02 春节营销还灵吗:流量好拉,用户粘性才是真问题

郝博阳今年春节营销方式比较传统:冠名春晚、红包裂变等形式,前一阵还有一场关于AI时代DAU(日活跃用户)是否还重要的讨论。

有观点认为,一个高付费意愿的软件开发者的使用量可能是普通用户的几十万倍,其价值也远高于一个普通用户。从这个角度看,目前春节营销的传统模式,效果会有多好?是否符合AI时代的特点?

李鹏:我认为还是要先回溯一下移动互联网时代。比如当年一些互联网巨头纷纷通过春晚红包快速拉新,本质是为了在移动互联网时代抢到一张“船票”。

但AI时代的入口完全不同:这已经不是工程层面的竞争,而是纯技术之争。谁能实现技术上的真正突破,才能形成核心优势。即便是日活过亿的豆包,只要出现新的技术爆款,也可能迅速受到冲击。所以AI时代,追求的不是拉人头、拼日活,而是通过营销引流之后,实现有价值的用户增长。

AI方向的竞争也同理:春节期间吸引流量的玩法,不一定是未来真正留住用户的功能。真正的留存,靠的是用户体验和技术上的领先,能不能把产品做得足够好用,这才是日活月活的根本。 

肖仰华:我完全赞同李老师的判断。AI时代的产品宣传模式与互联网时代已经完全不同。互联网经济的本质是注意力经济,所以在人群最密集的时间最高声量地吆喝是有效的。 

在AI技术尚未完全收敛的今天,用户忠诚度极低,今天豆包好用就用豆包,明天DeepSeek好用立马切换,毫不犹豫。我们身边就有用户每天把各大模型的免费额度用完再换下一个,绝不付费。这种现实下,很难指望春节引流能带来持续的用户粘性。

真正的核心问题是:你的护城河是什么?比如日常用的微信的护城河在于用户所有的历史对话、文件和社交关系都存在平台里,离开代价极大。而目前绝大多数AI产品还没有形成这种无法摆脱的粘性。

从这个视角来看,我认为“传统互联网平台+AI”的模式有可能成为最终的王者。毕竟基于平台本身,已有深厚护城河,只要战略上不犯重大错误,在AI时代仍有极大胜算。传统硬件终端也有类似的入口优势。

其实,这次春节档的竞争,本质上是入口之争,大家都在抢由大模型带来的新流量入口。从这意义来说,传统的硬件终端,仍然是有巨大的优势。

熊宇轩:我补充一点想强调的,是不是说AI时代DAU完全不重要?倒也不一定。我个人的看法是DAU的质量比数量更重要。比如打车平台的竞争时代,竞争逻辑是“谁能抢到最多用户谁就赢”,用户乘车的服务差异不大。但大模型竞争不同,单纯积累“低粘性”的用户数量意义并不大,留存的核心是用户能从产品中获得真实价值。就像部分用户体验新模型后,立刻愿意购买最贵的年度套餐,这种深度使用和真实付费,才是有价值的用户留存。这实际上是对 DAU 的一种“价值重塑”。

各家应该在某个领域形成真正的独门绝技,比如前端设计极致美观,或代码理解能力超强,或科研辅助极其专业,吸引住对应的细分用户群体。长期使用带来的行为数据,会让用户画像越来越清晰,进而支撑精准的个性化推荐,这比广撒网更有商业价值,也更能帮助用户找到真正适合自己的那款产品。

03 本轮发布盘点:工程优化为主,里程碑式突破尚未到来

郝博阳:是的,最近大家可能都关注到了:Mini Max-M2.5、GLM-5、Seed 2.0、Kimi 2.5、Qwen3-Max-Thinking,都赶着春节档密集发布了一批基础大模型。

此外,可灵、Sora系、维度等厂商也发布了多模态(主要是视频生成方向)以及图片生成方向的一些模型。我们先聚焦在这些主流模型上,它们做了哪些比较明确的技术迭代?如果要比较的话,各家的核心技术优势分别体现在哪里?

李鹏:我先简单梳理几点。最近发布的新模型非常多,DeepSeek虽然没有发布新的主力模型,但也推出了灰度测试版本,支持从128K到百万Token的上下文窗口,并更新了知识库,基于真实知识进行推理,有助于减少幻觉产生。

刚也提到了智谱发布了GLM-5,近期在各评测榜单上表现相当亮眼,股价涨幅超60%,估值已达1500亿左右。它这一波的核心亮点集中在编程能力上,能够像资深架构师一样拆解复杂的系统需求,同时在长时间运行过程中保持上下文的连贯一致性,这两点恰恰是当下Agent落地最关键的两个能力门槛。

还有Kimi这次发布时强调了一个很有意思的概念——Agent Cluster(智能体集群)。这个概念的核心不是把整个任务交给单一智能体完成,而是将任务拆分成多个子任务,每个子任务由专门的智能体承担特定角色,共同协作完成整体目标,这类似于公司或社会中的分工协作机制。

我个人认为这是一条非常正确的路径,比如目前OpenAI等AI巨头公司也在尝试类似的方法。

前段时间我和清华大学姚期智先生、袁洋老师交流,他们提出了“结构智能”这一概念,实际上就是用范畴论和拓扑斯理论的方法来研究智能体之间的协作关系,并将其称为"Agent Company",这是一个非常有意思的点。

肖仰华:总体来看,这一波发布的模型大多是针对产品场景和具体应用做的增量式优化,真正具有里程碑意义的原创创新并不多。对比去年DeepSeek的突破,无论是GRPO算法实现深度思考大模型,还是混合专家架构(MoE)实现系统性优化,这种水平的技术创新,在这一波中几乎没有出现。

但这并不意味着增量创新没有价值。未来相当长一段时间内,小步快跑式的迭代可能会成为常态,大家聚焦在具体场景的问题上,不断打磨产品体验。当所有模型都能做到90分的时候,真正的竞争其实是在比谁能把90分做到99分,把99分做到99.9分,追求小数点后的若干个9。这种精细化的能力提升,本身也是极具挑战性的工作,不应被低估。

当然,我们也不排除有更大的颠覆式创新正在酝酿之中。比如2025年的扩散模型(Diffusion Model)就非常值得关注,它的实现机制可能更接近人类大脑系统慢思考的神经实现方式,一旦出现突破,有可能从根本上颠覆现有的模型架构。这个方向值得持续关注。

熊宇轩:我再补充几点关于技术方向的,目前各家技术路线虽然实现方法不同,但还是有规律可循。我认为去年DeepSeek的开源周可以视为一个里程碑,国内大模型开始对国际领先模型发起实质性冲击,或者说是“反攻”。此后,有不少厂商的大模型或多或少参考了DeepSeek的技术路线。这条路线可以归纳为以下几个方向:

第一,各家对于多模态数据的理解与处理能力,日益受到重视。比如Kimi K 2.5、Seed 2.0增强了视觉理解能力。去年年中到现在,DeepSeek OCR 的能力持续迭代,GLM 也跟进了 OCR 模型。Mini Max-M2.5也强调多模态处理能力的全面提升,这里肯定大家关注到了这种信息的互补性和能力。

第二,推理效率的提升是各家的必争之地。模型能力再强,如果推理成本过高、响应速度过慢,在实际落地场景中就会遇到很大阻力。这一波各家都在这个方向上下了功夫。

比如DeepSeek从去年发布的MoE(混合专家)架构到今年发布的mHC(流形约束的超连接),使推理模型的效率和推理质量更高。再到Engram记忆缓存机制,这一系列技术迭代都指向同一个目标:让模型在保持能力的前提下,推理更稀疏、更高效、成本更低。不光DeepSeek,还有GLM和Kimi也都有类似的探索。

第三,为实现多智能体系统,各家也在设计模型间的协作机制。比如说什么时候该用多智能体,什么时候单模型独立完成,各家都在摸索之中。我们期待看到更大的技术突破。

04 通用与垂直大模型之争,往哪个方向走

郝博阳:从最近这些模型的发布博客来看,从上一代到这一代的变化并不大,主要是工程性优化,尤其是后训练框架的优化在后训练中加入了Agent RL等偏向智能体和编程能力增强的训练方式。

这个方向非常清晰,也指向了国内模型一个比较明确的共同路径:就是向落地方向发展,也意味着重点关注在编程能力和Agent能力的提升。这段时间国内模型似乎掀起了一股对标Anthropic的浪潮:死磕代码逻辑,提升模型自动化和自编程能力。

各位是如何看这个方向的,这个路径是否是当前最核心、甚至最唯一的路径?毕竟海外还有一些别的路径,比如Gemini更偏向多模态,部分模型偏向AI for science等。

李鹏:这个问题很有意思。国内之所以普遍选择这条路径,核心原因是“比较容易出结果”。比如智谱走的“高智商”路线,成效相对较快,能够迅速展示效果,方便后续融资和推高估值。

这里值得一提的点是,AI时代的“赢家通吃”与互联网时代会有本质区别。互联网时代,打车、共享单车走到最后只剩一家或合并成一家。但AI领域完全不同。

比如说,目前豆包日活可能已过亿,但如果说未来一旦出现新爆款,也可能会迅速对其造成冲击,这也会改变我们过去互联网产品“赢家通吃”的固有认知。

如果让我选择,我倾向于认为以通用路线为主、能持续从海量用户数据中学习的模型,最终更可能走到最后。

如果走专业化路线有一个潜在的风险:很容易把自己做成小众。当你的用户群体始终局限在技术圈内,产品很难真正破圈。而一旦陷入小众,就容易走向另一个误区:为了刷榜而刷榜。榜单分数好看,但真正能让AI产生价值的,是那90%甚至更多对技术并不了解的普通用户。分数漂亮,不等于用户体验真的提升了。

回想去年春节DeepSeek的爆火,它真正做到的一件事是:把大模型的用户从技术圈扩展到了普通大众,到现在连家里的爸妈都开始用AI工具了。这种大众化的渗透,才是真正有价值的增长。

肖仰华:我认为通用还是专用的问题,最终会走向分化。

面向普通消费者的通用型模型,与面向数学家、医生、药学家等专业群体的垂直型模型,将各自有其生存空间。专业模型服务的用户群体虽然数量有限,但单个问题的解决价值可能远超普通用户场景,比如用于研发一款新药或解决一个数学难题,如果能解决问题,其产生的价值可能远超于生活里商业场景的价值积累。

目前,整个大模型产业也在走向越来越细分的方向:比如编程首选Claude,日常生活、娱乐聊天选豆包等工具。细分之后,各模型的特定能力会因用户反馈而进一步强化。定位不清晰、什么都想做的模型,反而可能在竞争中出问题。未来真正的竞争,不是追求某个标杆,而是在各自细分赛道上形成护城河。

熊宇轩:两位老师说得很全面了。我想补充的是,“专业能力提升”与“垂直领域落地”并不是对立的。

以Anthropic为例,他们深耕编程能力,但这并不意味着他们放弃了通用能力。恰恰相反,编程能力的突破往往会带动模型在其他领域的整体提升。真正的竞争逻辑是:先把通用基座能力做强,再向各个专业领域辐射延伸。

目前各家竞争如此激烈,本质上还是在争通用基座能力的高地。因为只有基座足够强,才有资格谈垂直落地,但落地本身也会反哺技术。用户在垂直场景中积累的真实数据和需求反馈,又会推动基座模型的下一轮迭代。技术研发与场景落地之间,是一个螺旋上升的互动关系。

技术研发有时候需要做一些“考古”的工作。就像DeepSeek的mHC技术,灵感来源于ResNet的残差连接,是在大规模应用中发现了新的工程瓶颈,才反推出新的技术创新。这个例子很好地说明了,场景落地不是技术研发的终点,而是下一次突破的起点。类似地,Engram 也体现出计算机领域经典的“存算分离”与“存算一体”思想的博弈,是在具体的工程场景下对访存和计算成本的综合考虑。

05 越跑越快的背后:技术成熟还是资本驱动?

郝博阳:还有一个值得关注的现象:目前迭代速度越来越快,比如Mini Max在108天内完成了四次迭代,而且每次迭代后能力增长越来越强,至少从Benchmark上看是如此。这背后说明了什么问题?是因为训练模型的底层范式越来越清晰、统一,所以可以按照明确方式快速推进?还是有其他原因?

李鹏:我认为主要原因是技术路线已经相对成熟,大家对“该怎么做”的共识比较一致。在这个共识基础上,加上算力等基础设施的持续提升,大家都在将已有成果不断往前推进。

因此,更新频率加快,也有一种现象:你不发新版就感觉进度落后了。但很多版本虽然数字好看,用户实际体验提升却并不明显。至少我在试用过程中,没有感受到以往某些重大版本更新时的那种震撼。

对于更新迭代的核心原因主要还是几方面原因:一是路线成熟的情况下,不断的修补和完善;还有就是围绕春节假期提供的发布窗口,一种基于市场竞争的策略。

肖仰华:我再补充几点。其一,刷榜在今天已经意义不大了,真正的业界观察者已经不再看那些榜单,评测题目都已广为人知,通过数据优化和蒸馏很快就能提分,这骗不了行业专家。

其二,大模型的持续学习和增量优化技术已经相当成熟:通过评测发现能力短板,针对性构造或合成数据,然后进行优化,基本就能看到效果。这背后是数据在发挥巨大作用,而数据的收集、合成与构造,在技术上已经不存在太高壁垒。

其三,频繁发版在很大程度上也是资本驱动,这里需要对投资方、对市场、对政府期望有所交代。相比之下,DeepSeek的版本迭代就没那么频繁,更专注于原始创新。我们应该在表面繁荣背后保持清醒:取得实质意义上的突破,才是防止被降维打击的根本。

熊宇轩:我非常赞同两位老师的观点。从理论上来说,从我们迈入深度学习时代以来,真正里程碑级的突破确实有限。但整个研究社区的规模爆炸式增长,顶会投稿已达数万篇,其中不乏能推动增量式进展的工作。从实际使用体验看,每一代模型确实有可感知的提升。

比如说面对以前的“死循环”问题——比如此前许多模型会陷入反复思考问题,跳不出来的现象,现在已经有所改善。这些进步来源于:数据规模持续扩大,针对具体业务场景中的问题进行的算法创新(如GRPO、mHC、Engram),以及大厂的算力相对充足的支持。 

这三个要素的共同推进,支撑了模型的频繁迭代。当然,我们更期待真正突破性的、原创性的变化,比如Transformer架构本身在未来几年或许会迎来颠覆。

06 国产和欧美顶尖模型能力差距在缩小,掌握话语权才是未来

郝博阳:我注意到这次各家模型更新有一个有趣现象:几乎都以Claude Opus 4.5甚至4.6为对标对象,宣称在很多能力上已经超越。这意味着,至少从宣发口径来看,国产模型似乎已经能追上欧美前沿模型。

在这种情况下,相比去年DeepSeek R1刚出来时与O1、O3接近的水平,一年过去,我们与美国最先进模型的差距是增大了还是缩小了?差距主要在哪里?

李鹏:从当前来看,国产模型与欧美顶尖模型的差距确实在明显缩小。

以前可能是年代级别的差距,现在已经非常接近,在某些层面甚至能超越。用户基数的快速增长也在推动国内模型的迭代提速,比如我的父母现在都在用豆包等AI工具,大量普通用户的参与是重要推力。 

但我认为,最核心的差距在于算力底层的软硬件协同。前段时间看到一些相关的报道,实际上AI的底层核心竞赛也是关乎一场算力的竞争,比如谷歌已经用自己的AI芯片,迭代到TPU第七代,并开始对外销售,包括Meta同样在自研芯片。

这种软件与硬件深度绑定、形成闭环的方式,能带来我所说“涌现级别”的差距,这种差距一旦形成将非常显著。目前国内大多数AI公司在模型和硬件上是分开的:模型公司做模型,硬件公司做芯片,但两者还没有形成像谷歌那样完美绑定的闭环,这是我认为后续可能拉开差距的核心问题。 

肖仰华:这个问题很值得深入讨论。首先,一个有趣的现象是:今天大家发布模型时,很多国内厂商仍然都以 Claude Opus 为标杆,“我们比它强了还是弱了”。如果大家都不约而同和A去比,那A就一定是领先者。 

所以什么时候我们可以说,国内的厂商是可以达到完全领先呢?有几个标志:

真正的领先有两个标志:一是全世界的大模型都开始以我们的模型为参照系,去做比较;二是评价话语权方面,当下的评测数据集大都是国外定义的数据集,我们在别人的规则下打分,还没有掌握话语权,何谈领先。

并且,现在谈“谁领先谁”可能本身就不是一个好的认知框架。我们需要思考一些更有价值的问题是,我们在哪个具体场景、哪类具体问题上我们领先? 

我相信中国模型在低成本、高效率、工程优化和大规模用户数据飞轮方面,已经达到甚至超越美国大模型的水平。比如豆包等AI大模型在面向普通消费者的产品化能力、友好度和效果上,经过这一波春节用户积累后,国际竞争者将越来越难以追赶。

但我们也要承认,美国在某些方面仍然走得很远,比如HLE等高难度评测标准都是他们率先提出的,他们可能在很多专业精英技能方面已经走得相当远,而我们甚至不清楚他们进展到了哪里,这才是更让人警惕的地方。

所以未来的竞争模式,我们比喻来说,很像现在正在举办的“冬季奥运会”,我们不是要和哪个代表团去比,谁的金牌最多,这个意义不大。而是我们要关注在哪个项目上我们能拿冠军、哪个项目上还拿不到,这才是一个合适的思考框架。

熊宇轩:非常赞同两位老师的判断。我们的优势是清晰可见的:落地场景极为丰富,整个社会运转效率很高,技术有很好的生根迭代土壤。至于差距的定义,也要辩证看待。 

举个例子:我给Gemini发了一张包含中文文字的图片,要求按照我的喜好修改,结果输出一堆乱码,它对汉字的动态理解存在明显问题;同样的任务给豆包,表现则相当不错;给Kimi K2.5,不仅完成了任务还整理了逻辑,给出了自己的思考。所以单纯看刷榜榜单,维度非常有限,数学和编程两个维度并不能代表所有用户需求。我们在很多垂类领域已经有领先表现,应该对自己有信心。 

当然,国外也有值得学习的地方。Anthropic的技术路线非常值得关注,比如他们每次提出新路径都能被行业广泛效仿:先做Agent,然后是工作流编排,再推出MCP(统一工具调用协议),再推出Skills(工具的稳定化管理体系)。为什么每次都是Anthropic这样的巨头来引领业界的发展路径?这背后是他们在整个Agent工程体系上的深度思考。

我认为这是我们需要学习的,不只是攻破具体技术难点,更要形成自己的体系化的方法论,掌握引领研究社区发展方向的话语权。就像软件工程从方法论层面组织工程师开发复杂的软件系统。Agent 工程可以看作是软件工程2.0或3.0时代,我们在这个维度上也有很大的发展空间。

07 多模态国内领跑:需求闭环、数据积累、人才聚集三重驱动

郝博阳:三位老师刚才都提到了,我们在某些方面已经能够比肩欧美最前沿的模型。尤其是这次春节档发布的多模态模型,能力表现非常亮眼。各位老师能分析一下:为什么国内多模态模型进步如此之快,甚至在某些领域达到了领先水平?

李鹏:我以豆包旗下的Seedance 2.0为例来谈。视频生成类模型在国内如此火爆,核心在于两点: 

第一,存在刚性需求与流量变现的闭环。抖音上“魔改甄嬛传”这类创意视频获得大量流量,这直接促使更多资源和人才投入,形成良性循环。

第二,技术方面的可操作性。比如说以前视频生成模型“抽卡率”问题,容易出现人脸崩坏、音画不同步等问题严重,但Seedance 2.0已经很好地解决了这些问题,音画一致生成效果也大幅改善。从一句精准的描述词出发就能生成高质量视频,这种能力切实地契合了春节这个特殊场景的需求(比如春节期间做拜年视频等)。

肖仰华:Seedance 2.0的出色表现业界有目共睹,提升的背后原因我认为主要有两点:

第一是数据驱动。算力问题逐渐不再是瓶颈后,多模态的突破本质上是数据的竞争。Seedance团队显然在影视数据上花了极大功夫,收集了大量高质量影视视频数据进行模型训练。

第二是聚焦策略。Seedance聚焦于影视制作这一特定场景,这个场景的数据相对容易获取,又有清晰的质量标准,使得集中资源在一个点发力后,效果自然容易呈现。这和把多模态能力迁移到工业场景(如复杂线路图或故障分析)是完全不同的挑战。

当然,我们也需要保持冷静思考:这些成果背后,数据合规和安全问题不容回避。国外很多模型并非没有能力做类似的事情,只是在数据使用上有更多约束。我们在看到效果的同时,也要思考如何在合规、安全等方面做得更好。

熊宇轩:补充一点:从算法角度来看,我们的研发实力本身也很强。比如说Meta推出DiT架构的同时,国内生数科技的朱军老师团队的U-ViT也同期出现,这研究方面我们并不滞后,甚至也有我们自己的特色和擅长点。

 对于企业方面来说,除了刚提到的豆包背后的字节团队,还有北大的DataFlow团队和其他机构也在做数据的管理、生成、压缩等基础研究,很多工作的作者是华人研究员,并与企业深度合作。

我们有全球最广泛的应用场景、最大规模的数据标注队伍、数量最多的AI科研人员,这三者叠加,在多模态这个快速迭代的领域,自然会形成强大的竞争优势。

值得一提的是,目前全球顶级AI会议上,有相当大比例的论文作者是华人研究员,其中很多人同时与国内企业保持深度合作,这使得学术前沿的成果能够更快速地转化为产业实践。CV和NLP等领域的研究者相互融合,学术界和工业界人才持续涌入,这都为多模态能力的快速提升提供了坚实基础。

 08 新的产品范式:从“聊天工具”到“异步协作伙伴”

郝博阳:去年春节DeepSeek的爆火,是今年所有厂商都要占据“春节档”的直接起因。但去年DeepSeek主要是以聊天对话的形式被大众所用,而今年大模型已经进入了较强的Agent化阶段,多模态能力也大幅增强。 

相对于去年,现在的大模型哪些更适合验证哪些新兴的产品范式?除了聊天对话之外,是否有一些新的入口,能让用户更好地体验到模型能力的进步?

李鹏:我想重点说说OpenClaw这个方向,这是近期让我印象比较深刻的案例。早期的Agent系统存在一个很大的问题:很多操作需要用户在场实时监督,整体耗费大量时间。

而OpenClaw将即时通讯工具(比如WhatsApp,国内的企业微信、飞书等)可以与智能体系统连接,构建了一个既是消息入口、又是控制平台、还是节点调度中心的架构。

这种架构的核心价值在于:将所有操作变成“异步”的。以整理桌面为例,早期的Agent执行任务时,用户需要全程监督;而有了OpenClaw这类系统,Agent只在需要用户确认的关键节点发消息,用户只需在那个时刻简单回复,其余时间完全无需关注,整体协作效率大幅提升。

结合Agent Cluster的概念,这其实都是在强调一个核心——就是把人作为主体,工具辅助人,而非人服务工具。一个人在公司或社会运转中,并不需要关注每一个细节,只需在关键决策节点上做出判断,其余交由Agent完成即可。我认为这是Agent化最重要的发展方向之一,26年这类产品形态应该会有更多实质性突破。 

肖仰华:如果说去年DeepSeek是一枝独秀,那今年是百花齐放。我认为有几个值得重点关注的新方向。

第一是“从能聊到会干活”。比如刚提到的OpenClaw,大模型不能只聊天,必须会做事,这个口号喊了三年,从2025年开始Agent渐渐成熟,大模型终于开始能干活了。从聊天到干活,虽然一词之差,背后的整个能力体系完全不同:需要会用工具、会编排工具、会设置参数、会追踪动作轨迹,实际上非常复杂。这将是一个非常重要的方向。 

第二是“从突破天花板到守住底线”。过去几年,国际顶级AI公司一直在不断突破AI边界,但从2025年开始,我们发现“守住底线”同样比突破天花板重要。今天有那么多AI系统和智能体在各种生产线和工作岗位上运行,它们能守住底线吗? 

比如说不该访问的数据会不会被访问?不该说的话会不会说出来?不该自作主张的决策会不会被擅自做出?这些问题目前没有任何一家厂商能给出有保障的答案。我们在企业中,之所以敢用一个人,是因为他不会做违法乱纪的事儿,我们对他的底线有预期。但对AI系统,我们目前还无法有同样的信心与预期。这将是大规模应用面临的严峻挑战。

第三是“从能用到好用”。这涉及AI与人的情感连接、善解人意、理解用户的家庭关系和社会背景、能够共情、在用户需要时主动安慰或反问、而不是一味执行。把情感能力和共情能力植入大模型,也是一个非常值得关注的方向。像马斯克的xAI的Grok在情感交互上做了大量工作,这类创新在国内目前还缺乏对标。我们国内模型目前同质化比较严重,希望大家能真正百花齐放,而不是都在追赶一个标杆。

李鹏:我赞同熊老师关于“守住底线”的观点,这确实是非常核心的问题。

我们要防止一拥而上、同质化严重,最后不得不回过头来大量收缩,就像当年共享单车一样,海量投放最终造成极大浪费。AI应用的边界和约束,应该在早期就被系统性地考虑清楚,而不是等问题出现了再来补救。

熊宇轩:我非常赞同两位老师的观点。我想补充一个角度:应该把“人”这个要素纳入多智能体系统的讨论中。如果把人也视为多智能体系统中的一个节点,那么人与Agent的交互和Agent之间的交互就有本质区别,人需要的不只是任务完成,还需要正向反馈、吸收正能量,以及在这个过程中自身的成长和提升。在教育场景中,这一点尤为重要:我们需要一个'有温度'的Agent,它不仅帮人完成工作,还让人在使用过程中获得认知的提升和人格的发展。

至于安全问题,Hinton、Bengio 等顶级科学家多次公开强调AI安全,正是因为他们预见到技术已经真正开始落地,而规则的制定却似乎滞后于技术的发展。我们需要在技术、政策等多个维度对AI的行为进行约束。这不是为了限制AI的发展,而恰恰是为了让AI在一个更健康、更可持续的框架下实现良性发展。我们需要的是更有温度、更加安全的AI。

09 2026年谁能跑到最后,看几大核心关键变量

郝博阳:感谢几位嘉宾的精彩分享。刚才我们围绕春节这场AI大战,从厂商扎堆发布的动机、技术迭代的路径、中美模型的差距,一直聊到营销模式的变与不变。那么把视角拉长来看,2026年乃至更长远的未来,各家真正的护城河会在哪里?哪些方向会是推动整体AI能力发展最重要的力量?

李鹏:我认为AI时代真正的护城河,从技术层面来说极难构建,更多体现在算力、芯片和数据上。

比如刚提到的,谷歌的TPU已迭代至第七代,并开始对外销售。这种软硬件一体的深度绑定形成了完美闭环,能够快速迭代。而国内目前的AI公司,模型归模型、硬件归硬件,还没有哪家将两者真正融合成一个体系。这是我认为后续会产生“涌现级别”差距的核心所在。

展望2026年,我最看好的是“异步多智能体协作”这种产品形态,类似OpenClaw和Kimi K2.5的模式。但其目前最大的问题是用户群体太窄,还停留在技术圈,尚未找到能触达大众的使用场景。

2026年如果要有真正的突破,关键在于能否找到一个真正触达大众的王炸级应用场景。谁能率先找到这样一个场景,让大模型的能力以最自然的方式嵌入普通人的日常生活,谁就掌握了下一个爆发点的钥匙。

肖仰华:2026年一定是AI应用爆发的一年。过去几年主要是基础模型完善和算力升级。要实现大模型应用价值的真正变现,我认为有几个关键护城河。 

第一是数据。谁拥有独特的行业数据、多模态数据、语音数据,谁就是不可替代的关键玩家。

第二是成本。今天大模型的单次调用成本远高于搜索引擎,如果推理成本无法降至搜索引擎级别,大规模普惠应用就难以实现。目前所有厂商基本都在亏损,这不可持续。谁能把成本再降一到两个数量级,可能就会是整个产业的爆发引爆点. 

第三是系统集成能力。Palantir把他们在政府和企业中用AI做业务智能化的工作称为“第二次曼哈顿工程”,本质是大规模集成创新。今天AI的技术供给远超需求,缺乏的是把AI技术与工具整合成有效系统的能力,这种系统集成能力将成为下一个核心竞争力,尤其是在To B赛道上。

熊宇轩:未来的AI将展现出几个清晰特点:更开放(Agentic AI 更自主,帮人做更多事情)、更自然(入口从键盘扩展到AI眼镜、端侧硬件等,让所有人都能自然接触AI)、成本更低(DeepSeek的Engram存算分离机制等方向,会继续压低成本)、更有温度、更加安全。

所谓“更自然的入口”,指的是更适配AI大模型的新型硬件终端,无论是数据压缩、模型压缩还是端侧效率的提升,都会让用户无需了解技术就能自然享受到大模型带来的价值。而“有温度”和“放心使用”,要求我们既要让用户用得舒心,也要让用户用得安心。这些都是我们在26年以及未来几年需要共同努力的方向。

郝博阳:非常感谢三位老师如此高密度、毫无保留的分享,在这个AI技术狂飙突进的时代,希望我们都能保持清醒,也能保持好奇。也在此祝大家春节快乐!

分享到: