当前位置：首页 > news >正文

报名开启｜ 2026CCIG百度企业论坛【多模态视觉与空间智能前沿论坛】

news 2026/5/27 16:00:27

大会简介中国图像图形大会CCIG 20262026年5月29日—31日在广州长隆国际会展中心召开由中国图像图形学会主办中山大学承办广东省图象图形学会、华南理工大学、琶洲实验室协办主题为“图绘湾区象启新元”湖南大学王耀南院士、南京大学谭铁牛院士、琶洲实验室黄埔徐宗本院士、中山大学赖剑煌教授共同担任大会主席。大会特邀李树涛院士、张艳宁院士、张文军院士、朱文武教授、王海峰博士、张正友博士、权龙教授作主旨报告200余位专家学者将带来前沿报告50余场高端论坛聚焦具身智能、空间智能、大模型、脑机接口、机器视觉、类脑智能、医学影像等热点方向覆盖学术前沿、产业应用和技术创新打造多层次交流平台。大会设置科技成果和海报展区全景呈现图像图形领域最新技术与应用。预计4000余名来自高校、科研机构的专家学者以及领军企业技术精英齐聚一堂共同探索图像图形技术赋能智能时代发展的新路径。大会期间将举行中国图像图形学会颁奖盛典并召开学会理事会议和常务理事会议共商学会建设与领域发展大计。论坛基本信息论坛名称多模态视觉与空间智能前沿论坛会议时间2026年5月30日13:30-15:30会议地点长隆国际会展中心三层301论坛简介在大模型加速迈向产业落地的新阶段AI正从“看懂图文”迈向“理解空间与真实世界”。视觉多模态、空间智能与原生多模态融合能力正在成为推动新一代人工智能发展的关键方向。本论坛聚焦视觉多模态协同表征、动态稀疏计算、人脸生成编辑、文档智能解析、空间智能等前沿议题汇聚高校学者、产业专家与技术企业代表共同探讨多模态大模型在感知、理解、生成与空间认知方向的最新突破与产业实践展现AI从二维视觉理解迈向空间世界认知的发展趋势。报名二维码论坛主席白翔华中科技大学软件学院院长人工智能研究院执行院长白翔华中科技大学教授、博导国家杰出青年基金获得者IEEE/IAPR Fellow国际期刊Pattern Recognition副主编A-EIC。主要从事计算机视觉与模式识别、多模态大模型等方面研究在Nature Machine Intell.、IEEE TPAMI、CVPR等国际一流期刊和国际会议发表论文200余篇。担任国际顶级期刊IEEE TPAMI编委顶级会议CVPR、ICCV、ECCV、AAAI、IJCAI、NeurIPS的领域主席国际文档分析与识别会议ICDAR 2025大会主席。曾获ACL 2024最佳论文奖Best Paper Award、2024年湖北省青年科技创新奖、2023年湖北省自然科学一等奖排1、2021年中国图像图形学会自然科学一等奖排1、2019年国际模式识别协会青年学者奖IAPR/ICDAR Young Investigator Award。现任中国图像图形学会常务理事青工委主任。王井东百度计算机视觉首席科学家王井东百度计算机视觉首席科学家加拿大工程院外籍院士IEEE/IAPR 会士ACM杰出会员。曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作包括高分辨率神经网络HRNet、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索等。担任IEEE TPAMI、IJCV和ACM TOMM的编委会成员曾担任过许多人工智能会议的领域主席如 NeurlPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等担任ICCV 2025 程序委员会主席。论坛讲者信息刘竹琳华南理工大学计算机科学与工学院数据科学与人工智能团队副教授、博士生导师报告题目视觉多模态大模型的协同表征与动态稀疏计算报告摘要本报告围绕视觉多模态大模型的协同表征与动态稀疏计算关注视觉、语言等多源信息在大模型中的高效理解、交互与适配问题。随着多模态模型能力不断增强模型不仅需要实现图像、文本、语音等模态之间的语义对齐和互补表达还需要在复杂输入和多样任务中合理分配计算资源避免全量交互带来的冗余计算、推理延迟和部署成本。报告将从协同表征、动态稀疏计算和高效可信适配三个层面展开首先讨论如何构建可对齐、可解释、可交互的多模态语义基础其次分析如何根据输入复杂度、模态贡献和任务需求动态选择关键计算路径最后探讨如何在下游场景中实现轻量适配、能力保持和可信输出。整体目标是为视觉多模态大模型走向高效、稳定、可靠的实际部署提供统一技术路径。个人简介刘竹琳现任华南理工大学计算机科学与工程学院副教授入选2025年全球前2%科学奖长期从事多模态大模型理论与技术研究主持与参与国家级/省部级项目6项包括百度松果基金2025“基于动态稀疏机制的多模态大模型高效计算框架”在多模态模型可控生成及高效计算等方向积累了系统性的理论与工程经验获得2021年TNNLS最佳论文奖、2020年澳门自然科学奖二等奖、2019年Franklin V. Taylor Memorial Award。潘烨上海交通大学长聘教轨副教授、博士硕士生导师报告题目多模态条件驱动的人脸细粒度编辑与生成研究报告摘要本项目围绕多模态条件驱动的人脸细粒度编辑与生成展开研究构建融合文本、语音、表情、动作等多模态信息的智能生成与驱动框架实现角色建模、细粒度编辑与动态驱动的一体化协同。项目进一步引入细粒度情感建模与风格化生成算法结合角色个性特征、身份设定及场景语义实现虚拟角色在表情、动作与情绪反馈上的多样化、自适应表达提升数字角色的真实感、艺术表现力与交互沉浸感。研究成果可广泛应用于虚拟医生、虚拟助手、数字演员、智能陪伴等领域为下一代数字人交互与元宇宙内容生产提供关键技术支撑。个人简介潘烨上海交通大学计算机学院长聘副教授研究方向为虚拟现实与人机交互。2015年博士毕业于伦敦大学学院随后在迪士尼研究院担任副研究员。在IEEE VR、CVPR和TVCG等国际顶级会议和期刊上发表学术论文50余篇其中以第一作者或通讯作者发表CCF A类论文31篇授权美国专利2项、中国专利2项。受邀担任IJHCS CCF A类期刊编委以及 IEEE VR 等CCF A类会议与期刊的程序委员会委员。曾获迪士尼研究院创新奖排名1/2、IEEE VR最佳论文荣誉提名奖2025年第一作者、CCF产学合作基金优秀项目奖2025年排名1/1和腾讯犀牛鸟基金优秀项目奖2023年排名1/1。入选上海市“千人计划”、中国图学学会“青年托举工程”和微软亚洲研究院“铸星计划”等人才项目。于静中央民族大学信息工程学院、人工智能研究院教授、博士生导师报告题目多模态大模型水印技术探索报告摘要多模态大模型生成内容的爆发式增长带来了严峻的版权保护与有害信息溯源难题。本报告围绕多模态大模型水印技术首先介绍水印技术从传统后处理方法向模型参数深度耦合的内在水印范式的演进范式。其次面向多模态数据、集中式与分布式部署、单客户端与多客户端训练等多样化场景阐述差异化的水印嵌入与提取方案。最后介绍涵盖模型水印多维度的评测基准。为多模态AIGC的可信溯源与版权保护提供技术支撑。个人简介于静现任中央民族大学信息工程学院、人工智能研究院教授博士生导师入选北京市科技新星。近年来主要研究方向包括人工智能安全、信息内容安全等。在TIFS、TIP、CVPR等国际会议/期刊发表学术论文100余篇申请发明专利20余项合著英文教材1部。主持国家科技重大专项课题、国家自然科学基金项目、北京市科技计划项目等国家级/省部级项目10余项。担任 CCF区块链专委会执行委员中国电子学会区块链分会委员担任信息安全领域国际期刊TIFS编委获国际会议最佳论文奖5项。刘毅百度主任架构师报告题目PaddleOCR多模态文档智能解析报告摘要大语言模型对高质量结构化语料的需求驱动了传统OCR向多模态文档解析OCR 2.0范式的演进。针对当前工业级可规模化方案欠缺、端到端大模型算力成本高昂且易产生幻觉等痛点本次报告将分享PaddleOCR在架构创新与数据飞轮方面的最新研究进展。报告重点介绍模拟人类视觉机理的“先感知、后理解”两阶段轻量化架构以及大小模型协同的高效自动化数据产线。该方案以0.9B的极小参数量在多项文档解析公开评测集中超越顶尖千亿级模型为泛文档解析及大模型应用提供可靠的数据底座。个人简介刘毅百度主任架构师。长期从事机器学习、深度学习相关的技术研发和应用工作主导了包括 PaddleOCR、ERNIE及PaddleX 等10余个知名开源项目。曾主持北京市创新联合体项目中“文心大模型全栈国产化适配研发及优化”课题参与工信部高质量发展专项和科技创新2030-“新一代人工智能”重大项目等多项国家科技计划的多个项目课题研究。霍然八维通科技有限公司空间智能副总经理报告题目以空间智能锚定物理世界数字化未来报告摘要随着大语言模型红利期收敛下一代AI的主战场正加速迈向“空间智能与具身智能” 。本演讲将探讨如何从大屏可视化的“数字孪生”旧范式跨越到可计算、可推演的“空间操作系统”新范式。重点分享基于“感知-推演-执行”闭环打造纯国产自主可控的空间物理视觉语义大模型与空间智能体Agent技术以及在大安全大应急框架下的消防、水利等复杂物理场景的数字化变革与落地实践。个人简介霍然高级工程师现任八维通科技有限公司空间智能事业部副总经理。长期深耕空间智能、数字孪生与智慧消防应急等前沿技术在基础设施领域的融合应用。专注于空间智能底座能力、多模态大模型行业方案设计及产业战略规划主导并参与了多项自主可控数字空间建模软件与智能体系统闭环的工程化落地致力于推动AI全面锚定并赋能物理世界数字化未来。冯伟凤凰卫视 AI 技术总监报告题目从视频理解到空间智能凤凰卫视的AI数据探索与实践报告摘要本演讲将围绕凤凰卫视在 AI 数据领域的探索实践分享从视频理解到空间智能的演进路径。内容涵盖高价值多模态语料建设、NeMoBench 视频感知基准测试、媒体领域 Agent Benchmark 设计以及大模型在长时序理解、时空因果推理和主动规划中的关键挑战探讨媒体数据体系在大模型时代的应用价值与未来方向。个人简介冯伟凤凰卫视 AI 技术总监、凤凰智媒副总经理媒体领域资深技术专家。长期从事内容智能和人工智能产业化应用相关工作拥有十余年内容科技实践经验。曾主导AI 中台、智能舆情系统等核心系统的建设与落地并于 2022 年将生成式 AI 技术引入实际生产流程。现负责凤凰卫视 AI 数据业务牵头构建多项高质量多模态数据集及 Benchmark 基准评测体系推动其在媒体融合、大模型数据生态及智能内容生产等场景中的应用。李志军国家集成电路设计自动化技术创新中心算法工程师飞桨开发者技术专家报告题目多模态模型的演进路线自回归、扩散、混合范式与智能体未来报告摘要当前多模态大模型普遍采用拼接式架构——视觉编码器经连接器桥接至语言模型理解与生成分属两套独立系统语义鸿沟与模态孤岛成为结构性瓶颈。本报告系统梳理多模态模型从拼接走向融合的演进路线深入对比自回归、扩散与混合三大范式的设计哲学、核心优势与根本局限并探讨多模态推理与智能体作为下一阶段的核心突破方向。在此基础上进一步分析原生多模态智能体的发展趋势与关键挑战展望感知、推理与行动在统一表征空间中闭环融合的技术前景。个人简介李志军国家集成电路设计自动化技术创新中心算法工程师中国农业大学硕士。百度飞桨开发者技术专家PPDE、飞桨框架贡献者俱乐部成员PFCC。专注于多模态理解与生成、计算机视觉等前沿领域拥有多年算法研发与团队管理经验主导多个智慧工业、智慧医疗项目的落地涵盖工业质检、安防监控、国产化芯片适配、医学影像等方向。在多届语言与智能技术竞赛/开放原子大赛中斩获一等奖。长期活跃于飞桨开源社区在CSDN、GitHub等平台持续分享技术文章与心得。论坛议程论坛亮点①聚焦“多模态空间智能”前沿趋势论坛围绕视觉多模态协同表征、空间智能、原生多模态等热点方向展开呈现AI从图文理解走向真实世界认知的技术演进路径。议题涵盖动态稀疏计算、人脸细粒度编辑与生成、多模态大模型水印技术、OCR文档解析、空间智能等内容系统展现多模态及空间智能前沿技术进展。②学术前沿与产业实践同台碰撞论坛汇聚华南理工大学、上海交通大学、中央民族大学、百度、八维通、凤凰卫视、国家集成电路设计自动化技术创新中心等多方代表兼具学术创新深度与产业落地价值分享真实场景中的技术实践与应用探索。联系人百度论坛参会联系人吴洋wuyang15baidu.com报名链接https://paddle.wjx.cn/vm/PpI1TtY.aspx#报名二维码关注【飞桨PaddlePaddle】公众号获取更多技术内容~点击“阅读原文”获取报名链接

查看全文

http://www.gsyq.cn/news/1404548.html