“上数营”前沿技术分享:AI大模型驱动量子城市建设的路径探索

2025-03-05 数城中心

  2025年2月28日,“上数营”第二期前沿技术分享会成功举办。“上数营”是为推动上海量子城市时空创新工作所组建的开放联创工作营,成员包括高校院所、互联网企业、规划建设单位、软硬件供应商及新业态企业等共计60余家。“上数营”前沿技术分享会聚焦人工智能技术驱动下的上海量子城市建设,系统分享国内外人工智能相关前沿技术成果和发展趋势,共同研讨和谋划在上海量子城市中的应用。技术分享会定期按专题开展,相关内容经整理后发布。本期主要聚焦AI大模型的基本概述、前沿进展、及其在量子城市建设中的应用落地路径展开探讨。

  以下内容根据现场技术分享整理,并经专家本人授权发布。

  主题分享

  多模态大模型技术发展与应用落地

 主讲人:谢榛

  阿里云大模型智算高级算法专家

  大模型概述

  人工智能技术的演进始终以“目标驱动”为核心,而大模型作为实现智能化的关键手段,正逐步从单一模态向多模态融合迈进。在技术路径上,从早期的机器学习、深度学习到基于Transformer架构的LLM(大语言模型),人工智能逐步突破文本处理的边界。当前,MLLM(多模态大模型)通过整合文本、图像、视频、音频等多维数据,集成了多种不同类型数据处理能力,在统一架构下实现跨模态理解与生成,成为技术演进的新焦点。

  多模态大模型与传统大语言模型的核心差异体现在三方面:一是输入输出模态多样化,支持图文、音视频混合处理;二是训练数据构建逻辑更复杂,需融合图文对、跨模态问答等多元语料;三是架构存在差异,大语言模型架构相对统一,而多模态模型需针对生成与理解任务设计差异化架构,在成熟度方面与大语言模型尚存差距。

  多模态大模型关键技术

  在目前的行业业务中,多模态能力有以下四种典型需求场景:多模态知识加工、多模态检索、多模态内容理解、多模态内容生成。结合规划资源领域场景,多模态大模型有名胜常识理解、复杂图表理解、语义目标定位、实时视频交互、具身智能等应用实例。

  为了实现各类需求场景,当前多模态大模型有以下三种关键技术:一是多模态大模型架构,在技术架构上,多模态大模型通过encoder(编码器)-connector(连接器)-generator(生成器)的协同设计,将不同模态数据转换为高维特征并输入大语言模型处理,以阿里云千问2.5-VL模型为例,其支持任意尺寸图像输入及原生视频时空压缩技术,显著提升了遥感图像解析、长视频理解的精度与效率,此外,业界正探索统一Tokenize(标记化)架构,进一步简化多模态数据对齐流程,降低训练成本;二是VLA模型(Vision-Language-Action Model,视觉-语言-动作模型):感知-决策-动作闭环,通过整合视觉感知、语言理解和动作控制,VLA模型(如RT-2、RT-H)可驱动机器人执行复杂指令,例如用户通过语音指令“关闭盖子”,模型将分解为“移动机械臂-抓取-放置”等动作序列,实现工业场景的自动化操作;三是世界模型:模拟和预测环境、实体及它们之间的交互,李飞飞团队提出的方案通过2D图像生成3D表征,生成多样可控的三维结构,在浏览器中实时渲染,支持物理交互(如物体移动和碰撞)和动态效果(如水流、烟雾),而DeepMind Genie 2则通过自回归潜在扩散模型预测视频帧序列,模拟重力、光照、反射等物理属性,英伟达Cosmos则提供世界基础模型和相关能力平台,可以根据下游场景进行微调,为行业落地奠定基础。

  大模型行业落地范式

  多模态大模型的行业落地,需要综合考虑行业特性、资源开销、数据准备规模、人力资源投入等方面来选择落地路径,在落地的过程中,一般会基于基模的能力创建范式:通用基座模型通过接入行业知识库快速适配基础任务;高质量业务数据微调则提升专业领域精度;强化学习与奖励机制进一步对齐业务需求。完成范式后,会遵循“数据-模型-智能体”三步走,核心在于分层解决基模能力局限性与业务场景适配问题:一是数据加工与多模态处理,多模态数据链路中,以视频为例,通过解码、切片、关键帧提取、OCR(Optical Character Recognition,光学字符识别)、内容扩写等流程,生成“视频+文本描述”的高质量数据,支持训练VLA模型(Vision-Language-Action Model,视觉-语言-动作模型),其他模态(如文本、图像)遵循类似预处理逻辑;二是模型选型与评测,按任务类型(如文档理解、视觉问答等)区分不同场景,驱动筛选模型,基础能力可以参考HuggingFace、OpenCompass评测榜单,但更重要的是关注上下文长度、推理性能、落地效果和开放性,如千问系列开源模型在泛化性和落地性上表现突出,基于qwen开源模型的衍生模型已突破10万,领先Llama等开源模型,全球第一,近期火爆的DeepSeek(深度求索)也选择qwen作为蒸馏模型的基模;三是智能体系统构建,模拟“大脑-小脑”分工,融合记忆(知识库、会话记录)、思考(任务分配、逻辑推理)与行动(工具调用),构建类人逻辑架构和高效推理、原子化插件集成、结构化数据收集及智能体平台支持等核心能力,确保低延迟与高业务适配。

  大模型落地,需要明确场景需求,平衡成本、效率和效果;通过知识库、模型高效微调和智能体构建,提升通用基模在行业领域的理解和推理规划能力,充分利用好行业内已有的垂类模型及工具,最终实现复杂业务系统的智能化升级和行业落地。

 全球人工智能前沿技术趋势

  主讲人:刘鹏宇

  华为上海 行业解决方案架构师

  多模态模型的应用

  多模态模型在城市空间治理中有多个方面可以展现其应用价值:方向一,城市规划利用多模态模型塑造城市空间,其技术路线主要分为两类:一是基于Urban World(生成式城市世界模型),通过提示工程构建城市精模;二是基于世界表亲模型,设置各类典型城市建筑的表亲建筑属性,自动化生成三维建筑精模。世界模型技术可为城市空间塑造提供精准仿真,集众智、汇众力构建城市建筑模型库,为城市规划提供支持。方向二,模型应用通过具身智能打通AIGC(人工智能生成内容)到AIGA(人工智能生成动作)最后一米。目前,人形机器人已经逐步进入车间、流水线,执行汽车装配、3C(计算机、通信和消费)产品装配、样本制备等关键任务。未来人形机器人将进入城市空间,担任家庭管家、服务员、基层管理的公务员等日常角色。

  通过构建从多模态模型、世界模型,到AGI(通用人工智能)的同心圆体系,将形成一个从城市空间的三维塑造出发、依托感知基础设施、借助具身智能实现空间交互并执行落地的闭环,达成物理空间与AIGC空间的快速连续映射。正如量子城市中,通过构建公共感知服务体系,提取城市的全要素感知数据,将城市物理空间的变化反映到时空智能体中,实现细颗粒度感知体验。

  大模型的前沿方向

  美国围绕AI(人工智能)基础科研、产业发展、军事应用等三方面打响AI的军备竞赛。通过科学基金、产业基金的支持,基于产学研构建从基础科研、小试、中试到商业化的AI研发全链条创新体系,推动AI多领域的发展,将科学推进到工程学,将创新思想推广到现实中,将技术从实验室推向市场。

  大模型的关键技术

  算力底座是通往AGI要解决的关键技术之一,算力底座的增厚对电力和算力的供应提出了挑战。从电力需求来看,作为AGI路标的美国“星际之门”目标突破10Z(泽它)算力墙,数百万卡的互联集群需要兆瓦级的能源消耗。从算力需求来看,DeepSeek(深度求索)的开源推动算力结构从“预训练”走向“预训练+二次训练+微调+推理”,总算力需求将持续增长,算力高地持续扩容,算力平地微调及推理需求的大幅增加将形成“造峰运动”。因此,算力基础设施建设的供地、供能、公共服务保障需要科学化、体系化的运作,以实现算力升级。

  推动大模型应用的技术趋势

  为有效应对各个应用领域的复杂挑战,大模型技术聚焦五大趋势,推动自身从实验室走向实际应用:一是芯片设计方面,鉴于先进设计软件和加工设备受限的现状,采用“以面积换能力、以堆叠换性能”的策略成为可行选择,在现有条件下挖掘芯片潜力,为大模型的运行提供硬件支撑;二是技术路线方面,大模型正从以往的快思考模式,转向基于长思维链推理的慢思考模式,其主流技术路线趋向于两个数学模型,即适用于语言文字处理的自回归模型和适用于三维空间构建的扩散模型;三是空间智能方面,构建一套涵盖三维场景库、感知数据和物理规则的数据资产库,在此基础上,通过数据清洗、token(标记)化、场景生成、交互响应模型测评等功能模块的协同运作,支持时空智能体的构建;四是语料质量方面,利用高质量的数据集显著提升模型的表现力,通过探索数据合成、标注、评估的自动化方法,打造高质量数据集,将空间数据的位置、状态、业务等属性精准关联到空间网格,助力大模型基于空间实现高效运作;五是感知应用方面,IOT(物联网)未来将结合Deepseek实现预测性维护,通过构建完整的城市健康度监测体系,深度挖掘数据价值,打造新一代AIoT(人工智能物联网)。

  大模型垂类应用五步法

  主讲人:山栋明

  上海库帕思科技有限公司董事长

  垂类大模型推进过程中的挑战

  垂类大模型是指融合行业知识和大模型能力,聚焦规划资源主责主业等垂类应用的定制化人工智能解决方案。然而其落地进程中主要面临三大核心挑战。一是方法论缺失,传统咨询等机构的知识储备滞后于技术发展,无法提供成熟技术指导;二是主力军缺位,大模型研发人员缺乏行业认知和理解,亟需通过开源框架DeepSeek(深度求索)降低开发门槛,将行业专家纳入开发生态;三是缺乏整体思维,在大模型的选择上不应过度关注单点能力,须整体推进,实现系统最优。通过以上三个洞察的落实,逐步实现量子城市建设从“以技术为中心”到“以业务为中心”的转化。

 垂类大模型的关键构建策略

  经大量实践与研究总结,构建垂类大模型有五大关键步骤。一是选择合适基模,选择有自然语言交互优势的大语言模型为基模。以业务为中心建立模型评测框架,做到“一业一方法、一业一框架”。确保模型满足基本需求即可,不必一味追高,后续可通过微调、增强行业语料库等提升性能。二是研制垂类模型的必要性,考虑到资源利用效率,建议选取知识密度高、系统复杂度高、多样性要求高的领域建设垂类应用大模型,如城市治理领域等。三是确保Agent(智能体)与模型各司其职,构建智能体时秉持复杂任务简单化的原则,采用“一任务一智能体”的模块架构,减少系统目录之间的勾稽关系,以用为导向,降低复杂度以提升使用体验,避免传统信息化系统的困境。未来的智能体应当是多种垂类小模型的组合体,通过Chain of Agent(智能体链)实现量子城市建设“准在快前”的需求,不应当妄想生成一个超级模型覆盖全部业务。四是配置语料库,大模型语料库基座“语料魔方”分成x轴(世界知识体系)、y轴(行业应用)、z轴(企业经营状态数据)三个维度。其中,x轴包括252块魔方,容纳了规划及交通管网、水务气象等一系列外延知识体系,确保人工智能大模型未来拓展空间;y轴包括城乡规划原理等国家统一标准知识和各地差异化行业知识;z轴包括城市遥感、人口经济体量等多种敏感数据,优先使用外挂数据库,渐进式推进语料化进程。五是保证算力部署,试点场景推荐采取端侧先行部署,库帕思通过“1+5”终端,即一套操作系统、五个规划区,构建出统一标准、模块解耦、生态长链、灵活部署、合规加持的模式,以解决端侧快速落地。

  垂类大模型的未来方向

  在当前量子城市建设的大背景下,需要拓展垂类大模型的以下三个发展方向:一是数据治理结构转变,从传统BI(商业智能)时代的注重数据占比及规模的结构化数据,逐步向Data for AI(人工智能数据驱动)时代注重过程性数据的方向转变。二是数据互联互通整体架构转变,从烟囱式搭接转为圆式融通,实现数据的高效对接及利用。三是坚持复杂场景任务简单化原则,推动大模型从Chain of Thought(思维链)向Chain of Agent(智能体链)的转变,为垂类大模型在未来量子城市建设中的广泛应用与深度发展奠定坚实基础。