生成视频好看还不够,还要能自由探索!昆仑万维单图打造游戏世界
机器之心报道
作者:张倩、泽南
世界模型的进度条,最近坐上了火箭。
去年 11 月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。
Oasis 世界模型的演示动画。
今年 4 月,微软开源的交互式世界模型 MineWorld,再次提升了视觉效果,大幅提升了动作生成的一致性。
MineWorld 模型的生成效果。
上个星期,又有国外创业公司开源了 「多元宇宙」,能让不同玩家在一个世界模型里进行游戏。
眼看三维世界的 AI 研究越来越多,英伟达人工智能总监、杰出科学家 Jim Fan 提出了「物理图灵测试」,要给具身智能设立一个像图灵测试一样的标准:如果你分辨不出一个现实世界场景是不是由 AI 布置出来的,那完成任务的 AI 就可以认为通过了测试。
从前沿技术、应用再到测试基准,我们正在见证技术的全面兴起,众多科技公司蜂拥而入,仿佛大模型的爆发又要重演一遍。或许过不了多久,计算平台处理的单位就不再是 token,而是物理世界中的原子了。
今天又有更大的新闻曝出:5 月 13 日,昆仑万维宣布开源交互式世界基础模型 Matrix-Game,这不仅是世界模型技术向前迈进的一大步,更是空间智能领域交互式世界生成的重要里程碑。
Github:https://github.com/SkyworkAI/Matrix-GameHuggingFace:https://huggingface.co/Skywork/Matrix-Game技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf项目主页:https://matrix-game-homepage.github.io作为一款世界基础模型,Matrix-Game 能够生成完整可交互的游戏世界,能够对人类输入的操作指令进行正确响应,保留了游戏世界的空间结构与物理特性,画面也更加精致,超越了以往所有类似开源世界模型 。
当然,它应用的应用范围不仅限于游戏,对于具身智能体训练与数据生成、影视与元宇宙内容生产也有重要意义。
昆仑万维表示,Matrix-Game 让世界不再只是被观看,而是被探索、被操控、被创造。这种主动式的探索或许正是空间智能发展的关键所在。
超越微软开源的交互式世界模型
Matrix-Game 强在哪儿?
Matrix-Game(17B+)是昆仑万维 Matrix 系列模型在交互式世界生成方向的首次落地,也是世界模型领域工业界首个开源的 10B + 大模型。
早在今年 2 月, 昆仑万维正式推出 Matrix-Zero 世界模型 ,迈出了其探索空间智能的关键一步。
昆仑万维表示,Matrix-Zero 其实包含两个子模型 —— 一个用于 3D 场景生成,另一个用于可交互的视频生成。
当时就有人问:这个可交互的视频生成模型可以用来做游戏吗?
几个月后,昆仑万维给出了答案。这次发布的 Matrix-Game 就是可交互视频生成模型在游戏方向的落地,它能够根据用户输入(键盘指令、鼠标移动等)生成连贯、可控的游戏互动视频。
和行业内的其他模型相比,它有以下几个特点:
1. 可以实现细粒度的用户交互控制。
在游戏里,你可以通过按「W、S、A、D、Space、Attack」以及这些键的组合实现自由移动和攻击。在 Matrix-Game 创造的「我的世界(Minecraft)」游戏世界里,你可以得到相同的体验,无论控制信号是连续的(如视角转换)还是离散的(如前进、跳跃),而且每次移动都伴随着景物的变化。
比如在下面这个「前进 + 攻击」的场景中,游戏人物穿过一片树林来到池塘前,代表树木的方块在受到攻击后被破坏,这是模型生成的环境反馈信号。而且,虽然池塘和后面的山体大部分被树木遮挡,但模型依然生成了合理的结果,使得整个过程的景物变化非常丝滑。
在一个「前进 - 向左 - 前进」的长镜头组合移动场景中,模型不仅严格遵守了用户的控制指令,还生成了丰富的景物变化,比如没入水中的逼真过程。
2. 生成效果具有高保真视觉与物理一致性。
在视频生成领域,能否保持视觉一致性、遵循物理规律是判断视频质量的试金石。但从业界的各种翻车视频来看,这些很难做好,更别说在交互视频这种需要推理交互效果的视频生成形式中。
但 Matrix Game 的表现令人眼前一亮,在交互中能生成物理上合理、视觉上一致的结果。
比如,在下面这个左右移动的场景中,草丛中的花有时会被树干遮挡,但随着脚步的进一步移动又会重现,这说明模型具有保持视觉一致性的能力。
再比如,在一个跳跃的操作中,我们能够看到河里的景物随着视角的变化而变化(跳起来之后,视角变高,能看到更全面的水底画面)。这都是模型根据所掌握的物理规律进行「脑补」的结果。
3. 拥有多场景泛化能力
在前面的例子中,我们已经看到,Matrix Game 能够生成非常丰富的 Minecraft 游戏场景,比如森林、沙滩、河流、平原等,这些环境涵盖不同地形、天气和生物群系。
其实,除此之外,它还能向非 Minecraft 游戏环境泛化,生成城市、古建等开放式场景的互动视频。
4. 具有系统化的评估体系
对于交互式视频生成这种相对较新的模型,应该从哪些维度评估生成质量?如果不想清楚这个问题,模型就很难有明确的优化方向。为了解决这一问题,昆仑万维提出了一套专为 Minecraft 世界建模设计的统一评测框架 —— GameWorld Score 。
具体来说,GameWorld Score 从视觉质量、时间一致性、交互可控性、物理规则理解这四个维度来评价模型。视觉质量是指每一帧图像的清晰度、结构一致性与真实感,这也是人类感知视频质量的几个重要维度。时间一致性、交互可控性和物理规则理解上文已经提及。这几个维度合在一起,首次实现了对可交互视频感知质量 + 控制能力 + 物理合理性的全方位衡量,补齐了现有基准的短板。
在这个基准上,Matrix Game 与知名创业公司 Decart 的开源方案 Oasis 和微软的开源模型 MineWorld 进行了 PK,在四大维度上均取得领先成绩。
图源:Matrix-Game 技术报告
在双盲评测中,Matrix-Game 生成的视频评分也是大幅度领先:
图源:Matrix-Game 技术报告
在控制性上,Matrix-Game 在「运动」、「攻击」等动作上实现了超过 90% 的准确率,细粒度视角控制下依然可以保持高精度响应。
图源:Matrix-Game 技术报告
接下来是场景泛化能力,在 8 大典型 Minecraft 场景中,Matrix-Game 保持了全面领先,展现出卓越的环境适应性,这意味着它可以广泛应用于较复杂、动态的虚拟世界交互任务。
图源:Matrix-Game 技术报告
可见,不论是从数据、模型还是实测角度来看,Matrix-Game 都树立了当前交互式世界模型的新标杆。
Matrix-Game 是怎样练成的?
在昆仑万维发布的技术报告中我们可以发现,Matrix-Game 取得的优异成绩主要得益于研究团队在数据、模型架构等方面做出的技术创新。
精挑细选的 Matrix-Game-MC 数据集
目前,业界已有越来越多的研究尝试让世界模型生成游戏场景,但它们往往难以有效捕捉物理规则,泛化能力有限。
Matrix-Game 改变了这一现状。它是一个参数规模达 17B 的世界基座模型,专注于交互式图像到世界的生成,通过两阶段训练策略(无标签数据预训练 + 标注数据可控训练)训练而来,其中用到了昆仑万维自主构建的大规模数据集 ——Matrix-Game-MC。
Matrix-Game-MC 数据集涵盖从无标签预训练数据到精细标注的可控视频全流程。 其中,无标签预训练数据来自 MineDojo 数据集中的视频资源,研究团队利用 MineDojo 工具系统性地采集了约 6000 小时的原始 Minecraft 游戏视频,并设计了三阶段过滤机制,依次对画质美学、动态合理性与视角稳定性等方面进行筛选,最终获得了超过 2700 小时的中质量数据和 870 小时的高质量数据,用于支持基模型的无监督预训练。
有标签部分则是采用探索代理(Exploration Agent)、程序化模拟(Unreal Procedural Simulation)两种策略混合生成的可控监督数据,包括高质量的《我的世界》游戏内容和在虚幻引擎(Unreal Engine)中手动构建的模拟交互场景,不仅包含精确的键盘与鼠标控制信号,也提供位置信息、动作标签及环境反馈信号,体量约 1000 小时。
另外得益于 Unreal 数据的融入,Matrix-Game 在更通用游戏场景的泛化上展现出了明显的优势。
图像到世界建模的模型架构
Matrix-Game 的目标是能够内化真实的物理交互、语义结构并支持交互式的视频生成。
从模型架构上看,Matrix-Game 的整体架构围绕图像到世界建模(Image-to-World Modeling)的方式设计。正如 2 月份 Matrix-Zero 所展示的,该系列模型受空间智能启发,纯粹从原始图像中学习,可参考单张图像生成能交互的视频内容。它通过构建一个一致的场景来学习理解世界,不依赖语言提示,仅基于视觉信号对空间几何、物体的运动及物理交互进行建模。
其中,视觉编码器或多模态主干网络处理的参考图像作为主条件输入,在高斯噪声及用户动作条件下,由 DiT 生成潜在表示,然后通过 3D VAE 解码器将其解码为连贯的视频序列。
MatrixGame 能够直接通过视觉内容感知、解读和建模世界,可以实现一致且结构化的理解。结合用户的动作输入,世界模型可以像 AI 图像生成工具一样直接生成「3D 游戏画面」。为了避免此前很多世界模型生成长时序内容不停变化的出戏情况,Matrix-Game 每次生成会以之前的 5 帧运动作为上下文逐段递进生成,保证了输出内容在时间上的连贯性。
在交互可控的问题上,人们输入的键盘动作(如跳跃和攻击)以离散的 token 表达,视角的移动则以连续的 token 表达。作者使用 GameFactory 的控制模块,同时融入了多模态 Diffusion Transformer 架构,还使用 CFG 技术提升了控制信号响应的鲁棒性。
简单总结一下,Matrix-Game 经过了数千小时高质量数据的训练,通过创新的模型架构既实现了对人类交互动作的准确反应,又能保持生成内容的一致连贯,进而实现了从图像到世界生成的突破。
技术发展到这种程度,世界模型在快速生成游戏、动态视频生成等应用上已经让人看到了希望。
昆仑万维的空间智能愿景
远不止游戏
走向多模态、3D 世界,是生成式 AI 的下一个发展大方向。
在去年的一个演讲中,斯坦福大学教授李飞飞曾指出,过去几十年,尤其是深度学习变革的十多年里,我们在视觉智能方面取得了巨大进步,但目前的视觉智能仍存在局限,主要集中在二维图像的识别和理解。而现实世界是三维的,要真正解决视觉问题,并将其与行动联系起来,就必须发展空间智能。
空间智能是朝着全面智能迈出的一个基本且关键的步骤。只有让机器具备空间智能,才能使其更好地理解三维世界,从而实现更复杂、更高级的智能。
昆仑万维的 Matrix-Game 是空间智能领域交互式世界生成的重要里程碑,将为多个领域的发展带来重要影响。
首先,从内容生产的角度来看,Matrix-Game 可以支持更低成本、更高自由度的丰富、可控的游戏地图与任务环境生成,助力游戏开发。
此外,它还可以与昆仑万维的其他 AI 产品联动,比如天工大模型能为 Matrix-Game 生成的游戏世界提供更智能的 NPC 交互逻辑;Mureka 能为这些动态生成的场景和视频提供匹配的背景音乐和音效;SkyReels 可以为生成的游戏提供更多画面和剧情。这些产品就像一块一块的拼图,一旦整合到一起,能助力的不止是游戏生产,还有影视、广告、XR 等内容的生产。
其次,从科研角度来看,Matrix-Game 所代表的空间智能是一个极具潜力的方向,因为它和具身智能等方向的发展息息相关,谷歌、微软等大玩家都在此方向发力。Matrix-Game 作为中国首批具备可交互视频生成能力的世界模型,对于推动国内空间智能领域发展有重要意义 。
「实现通用人工智能,让每个人更好地塑造和表达自我」,这是昆仑万维的使命。 这个使命在空间智能时代有了更深远的意义。当人类能在三维世界中自由创造和交互,当想象力不再受制于技术门槛,我们才真正开启了表达自我的新维度。
过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列 SOTA 级别模型,如今又在空间智能方向再下一城。可以说,从二维到三维,从语言大模型到多模态生成再到如今的交互式世界模型,昆仑万维的技术布局越来越清晰:构建一个完整的 AI 创作生态。在这个生态中,每个人都能找到自己的创新空间,每个创意都有机会快速变成产品。一个想象力真正成为生产力的时代正在加速到来。
什么是CFG桩,解锁复合地基核心技术的经济高效解决方案
一、CFG桩的定义与构成
CFG桩(Cement Fly-ash Gravel Pile,水泥粉煤灰碎石桩)是一种由水泥、粉煤灰、碎石(或石屑、砂)及水按比例拌合形成的高粘结强度桩 。其强度介于柔性桩与刚性桩之间(C5-C25),通过褥垫层与桩间土协同作用形成复合地基,兼具承载力提升与变形控制的双重功能 。粉煤灰作为工业废料的再利用,使其在环保与经济性上优势显著,工程造价仅为传统桩基的1/3-1/2 。
二、核心原理与结构设计
1、复合地基协同机制:CFG桩通过褥垫层(厚度150-300mm,级配砂石)与基础连接,实现桩土共同承载。褥垫层是核心技术,确保荷载通过柔性材料均匀传递至桩体和桩间土,避免应力集中 。即使桩端落在坚硬土层,桩间土仍能通过褥垫层参与受力,显著减少沉降差异 。
2、应力传递特性:桩体模量远高于土体,荷载作用下桩顶应力约为土表面的5-10倍 。桩体将荷载向深层传递,桩间土承担浅层压力,形成分层承载体系,整体承载力可提升1-3倍 。
三、关键技术指标与适用场景
1、设计参数
桩径:350-600mm(常规400mm);
桩长:8-25m,需穿透软弱层进入持力层≥1m;
桩间距:3-5倍桩径(约1.2-2.0m),采用正方形或梅花形布桩;
强度:桩身混凝土≥C15,28天抗压强度≥10MPa 。
2、适用地质
推荐场景:黏土、粉土、砂土、淤泥质土及填土等软弱地基;
禁用条件:硬岩、密实砂层、孤石、深厚淤泥(>15m)或液化土层 。
四、施工工艺与质量控制
1、主流施工方法
长螺旋钻孔泵送:适用于地下水位以上地层,钻进后泵送混合料,提钻速度1.2-2.5m/min,日成桩80-100根;
2、振动沉管成桩:用于松散土层,沉管至标高后投料拔管,日成桩30-50根 。
3、关键控制点
混合料:坍落度160-220mm(泵送法)或30-50mm(振动法),粉煤灰掺量20-30%;
垂直度:偏差≤1%,桩位偏差≤0.4倍桩径;
桩顶处理:超灌0.5m防止空心,养护15-20天后人工截桩 。
五、工程价值与案例验证
1、经济优势:某28层高层住宅采用CFG桩(桩长10m,桩径400mm),复合地基承载力达430kPa,较天然地基提升2.1倍,成本较灌注桩降低40% 。
2、沉降控制:沿海某商业大楼通过CFG桩处理淤泥质土,总沉降≤15mm,差异沉降≤0.002L(L为相邻柱距),满足超高层建筑规范 。
结语 :CFG桩凭借其“低造价、高适配、强协同”的特性,已成为现代建筑地基处理的首选方案之一。其核心技术——褥垫层设计与桩土应力比优化,为工程师提供了灵活的技术调节空间。未来,随着智能化施工设备与高性能材料的应用,CFG桩在复杂地质条件下的表现将进一步提升。
相关问答
f,c,g调笛子是什么意思听到有人说什么F,C,G调,什么意思啊~?_...
[最佳回答]笛子看的是简谱,简谱上有1=F,1=C,1=G等等就是说那个是"哆"这个音,1=F时你要用F调的笛子,1=C时你要用C调笛子,1=G时你要用G调笛子笛子看的是简谱,简...
PID工艺流程图中PI、PT、PR,PG,FRG,TR,LG,LI,HCV,FRQ,_作业帮
PID工艺流程图中PI、PT、PR,PG,FRG,TR,LG,LI,HCV,FRQ,答案解析结果1PI压力指示器PT压力变送器PG现场压力表PR压力DCS趋势记录TR温度DCS趋势...
篮球里C,G,SG,PG,F,PF,SF各指什么?-redemption的回答-懂得
c中锋g后卫sg得分后卫pg控球后卫f前锋pf大前锋sf小前锋PG:PointGuard中文:组织后卫简介:组织后卫(PointGuard)是球场上拿球机会最多的人。他要把球...
篮球中G.FG.C.F.等等都是什么意思?-145****1454的回答-...
PG是控球后卫SG是得分后卫SF是小前锋PF是大前锋C是中锋G是后卫的意思F是前锋科比是锋卫摇摆人,可以打后卫(一般为得分后卫),也可以打前锋(打...
为什么初学者学吉他和弦要学C、Dm、Em、F、G、Am?而不是C调的大三和弦?
一个自然大调的调内三和弦中:一级、四级和五级是大三和弦,C、F、和G就是C大调的大三和弦;二级、三级和六级则是小三和弦,所以Dm、Em、Am是C大调的小三和弦...
c调箫与g调箫有何区别?
买的时候看萧的管子上有一个字母,上面写着是什么字母这只萧就是什么调。洞箫的调分为A、bB、C、D、E、F、G调,最常用的是A、G、F调。一般初学者是买A调,后面就...
吉他所说的c调指法,g调指法是什么意思?
吉他中说的C调指法,G调指法其实指的就是和弦指法,但不是一个和弦,是在这个调里面组成的很多和弦。每一个调使用的和弦都不是一样的,在吉他曲谱最前面左上角...
文件有多少类型?LRC、VDM、CFG等等是什么意思啊?
文件类型和一个软件有关系,某些软件比如一个游戏,他的后缀一般只有制造方才能打开。每个后缀都有本身特定的含义。而LRC-歌词文件。VDM-视频字幕文件。CFG-设...
acfg接线什么意思?
答:acfg接线马达大接线柱,2接发电机正极,3接马达小接线柱,从白可以知道杜,三线电源开关通过零线、火刀线、地线三根导线操作电动智器。这里要注意的是,地...
直流无刷电机中VDC/Vsp/Vcc/FG/GND各代表什么意思?请高手指点,谢谢啦?
1#VDC/VM直流输入电压2#GND直流地3#VCC直流正4#VSP驱动控制5#FG转速反馈1#VDC/VM直流输入电压2#GND直流地3#VCC直流...

