当前位置：首页 > news >正文

AI时代，数据库正在走向哪？

news 2026/7/2 3:44:10

OceanBase湖库一体AI数据库的价值，恰恰在于将数据湖的开放与海量存储能力，与数据库的事务、分析与实时处理能力，构建到同一个架构中，形成AI时代的新数据基础设施。

这些思考和尝试，从世界范围来看，都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤，驱动着最创新和突破性的数据基建，中国软件企业第一次有机会从标准的“跟随者”成长为“共同定义者”。

作者|皮爷

出品|产业家

2026年，很多企业找到杨冰，他们颇具共性地提出一个问题：如何把企业的非结构化数据管起来。

作为OceanBase CEO，伴随着AI下半场的来临，杨冰能清晰感受到企业对“数据库”的特殊要求——数据库开始被要求不只要承担更多维的数据存储能力，更要帮助构建智能体在企业真实业务扎根生长的数据土壤。

这不是一件简单的事。如果向数据库的更细产品职能延伸，这其中涉及到的不仅是对多模态数据的纳管，更包括搜索引擎的重构、全盘数据的实时调取等等。

如果把视角放大到整个中国市场，会发现OceanBase和杨冰遇到的并不是偶然情况。过去18个月里，几乎所有中国企业的CTO都在做同一件事：把大模型“请进”公司。

但结果并不如预期中乐观。根据Gartner 2025年发布的AI技术成熟度曲线显示，如今，生成式AI已经进入初步"幻灭期"——即企业对其期望过高，但现实落地往往困难重重。去年年底麦肯锡发布的AI落地报告则更为直接——截止2025年年底，仅有不到20%的企业能从生成式AI应用中量化显著的ROI，大多数企业仍处于试点阶段。

问题出在哪？

一个在今年开始被越来越多企业CIO乃至CEO意识到的问题是：在模型参数和算力集群上之外，AI与企业核心业务之间的那道数据鸿沟，始终没有被认真填补。

"在通用的模型和企业所需的智能之间，存在着一道宏大的业务上下文鸿沟。"6月29日，在OceanBase湖库一体AI数据库发布会现场，杨冰表示，"模型再聪明，聊天聊得再好，如果说无法理解业务、参与决策、跑通流程，它就没法为企业创造价值。"

AI时代，企业到底需要怎样的数据库？又或者说，当Agent开始成为数据库的新使用者，当非结构化数据跃升为“业务know-how”核心资产，AI到底需要什么样的数据底座？以及怎样的数据库能驱动AI走进真实的生产系统？

15年前，双十一拉开了中国移动互联网的热潮，分布式数据库应运而生，站上数字化转型的主舞台；15年后的今天，伴随着AI进入人们生活，成为企业新生产力框架，数据库又正在迎来一次新变革。

一、AI数据库，走到了“岔路口”

2024年，在国内某头部车企的座舱大模型研发中，发生这样一个问题。

项目初衷是通过多模态大模型做智能座舱的个性化推荐——即模型需要同时理解用户的语音指令、车内摄像头捕捉的面部表情、以及车辆传感器数据，最终响应回复。

其数据库服务商提供的方案是在不同数据库产品之间通过“外挂AI”的方式帮助其完成数据检索和调用——语音文本存在NLP平台的向量库里，图像特征存在另一个视觉AI平台的存储里，车辆传感器数据存在时序数据库里。

但问题很快产生。即前端的Agent要生成一个推荐，至少要做三次跨系统调用，反映到前端则是用户的每次请求座舱大模型每次都需要很长时间，更严重的问题在于三个系统的数据时间无法保持一致，如图像有200ms延迟，传感器数据有500ms延迟，这也就导致Agent给出的答案并不是基于真实数据和需求的答案，为整个项目带来影响。

这正是伴随着AI大模型浪潮开始，目前不少企业采取但却屡屡碰壁的“数据库+AI”路线。

在回答"AI需要什么样的数据底座"之前，不妨先来看当下行业内正在被趟出来的两条路。

第一条路，就是上文所示，在存量架构上"适配AI"。

这条路过去两年有大量样本。即传统数据库保持原有内核不变，在外围叠加向量检索引擎、全文检索插件或独立的AI中间件。关系型数据库搭配外部向量库、数据湖上搭建检索层、Elasticsearch叠加Embedding管道——这些组合拳往往能带来不错的Demo效果，由于不需要调整核心系统，企业接受度也比较高。

但真正把它放进生产环境，问题就开始冒出来。

最直观的一个是：智能体拿到的永远不是完整的业务事实。一笔交易的数字存在关系型数据库里，对应的合同文本躺在对象存储里，客服录音的向量存在另一套引擎里。智能体要理解这笔交易的全貌，就得跨三个系统拼数据——其中的延迟问题、数据不对齐问题会从根本上动摇前端的AI准确度。换言之，架构裂缝很难被填平。

其次，成本。在这条路线中，海量原始数据被直接灌给大模型做推理，一次推理往往需要消耗海量的Token。理想的做法应该是"先过滤，再调用"——在数据底座内部完成多模态混合检索，只把最相关的信息喂给模型。

但多系统拼装的由于检索和理解被割裂在不同的组件里，无法绕过API自行完成调用。

此外，在今年这条路线还出现一个更大的问题，即伴随着多智能体架构和LOOP工程的兴起，Agent无法安全地试错自进化。以蚂蚁阿福、灵光为例，在每个产品内部其同时运转的是成千上万个Agent。每个Agent都需要一个独立的试验环境——做对了保留，做错了回滚。但在传统架构下，这种独立沙箱环境在成本上根本不可行。

在第一个路线之外，还有第二条路，就是从数据库内核出发"重写底座"。

即服务商不以兼容旧架构为首要约束，而是围绕AI的使用方式和数据形态，重新设计数据的组织、存储、检索与调用方式。

这个路线的产品设计对应的是一个本质的思考，即“AI数据库的本质需求是什么”，如果向上延伸，不难得出结论——多模态统一存储、混合搜索原生内置、Agent友好架构、在线与离线数据闭环。

但客观看，这条路并不好走。即如果要满足这些新需求，无异于对传统数据库架构的重新颠覆，其中的引擎设计、固有的存算分离架构，甚至底层的数据关系表都需要重写，唯有如此，才能完成对Agent实时调用和多模态需求的完全满足。

虽表达形式不同，但这两条路线本质都在求解一个问题：AI时代，数据库正在迎来一个全新且不可避免的挑战——AI驱动的世界里，数据到底需要被以怎样的形式调用、分析、使用和流转？

二、OceanBase，重走一条AI路

6月29日，一张测试集成绩被OceanBase放到台前。

在MSMARCO测试集中，OceanBase在Top10无过滤条件和Top100且1%过滤率双重指标中，性能表现均超过Elasticsearch；前者OceanBase为5.895毫秒，Elasticsearch为7.448毫秒，后者OceanBase为12.775毫秒，Elasticsearch则是高达16.614毫秒。

对MSMARCO测试集的一个介绍是，其是业内公认的、用于信息检索和问答系统的标准大规模数据集，880万Passage的规模足以模拟高并发、大数据量的真实生产环境。

其中，Top10平均延迟对应的是衡量系统返回最相关的前10条结果所需的平均时间，在前端应用侧，这直接关系到用户感知的响应速度；Top100平均延迟则是衡量返回前100条结果的平均时间，更多用于评估系统在复杂查询或大结果集下的吞吐能力。

在这两项在AI时代足够重要的底层能力上，OceanBase的性能均超过了专门做搜索起家的Elasticsearch。

它做对了什么？

这张测试集成绩单被放到台前的同时，在当天的发布会上，OceanBase也正式向外界展示了自己在AI时代的数据库新思考——发布湖库一体AI数据库，宣布从底层重构AI数据库。

OceanBase选择的这条路，对应的恰是业内罕见的“第二条路线”——真正为AI时代构建一套专属的数据基座。

这也正是OceanBase湖库一体AI数据库的核心目标。换言之，湖库一体AI数据库并不是在原有数据库基础上叠加AI插件，而是重写底层，基于真实的AI需求，倒推出一套新的数据库架构。

首先，底层也是最核心的OceanBase Lakebase。它的核心设计是"多模表"——基于这张表，结构化数据、非结构化数据和向量数据可以在同一张表里被统一管理。一张表可以同时容纳交易记录、文本段落、图片、音频、视频文件和向量Embedding。

这个设计对应的不只是一个工程细节，而是满足当下最真实的AI前端需求：智能体不再需要跨系统拼数据，它面对的就是一个完整的业务事实，与此同时，OceanBase还在多模表中引入了"AI列"概念——可以对表中的多行数据、多模数据同时执行AI搜索、计算（如Embedding生成、打标），把多模态数据处理的一致性写进数据库的底层内核。

除此之外，其还支持秒级Fork Database的数据沙箱——即每个Agent可以基于Loop框架构建出一套自进化、自反馈的独立沙箱环境，基于独立隔离试验空间实现自进化，智能体和智能体之间互相独立，互不干扰。

恰如前文所言，一个当下的共识是，未来在企业内部，多Agent架构将成为业务表达的常态，在协作的同时如何让每个Agent能基于LOOP体系稳定地实现自进化，其中必需的设计恰是智能体开发环境的隔离。这也是这个设计的精妙之处。

中间层，OceanBase DataStudio。对其的一个描述是，它可以帮助企业构建完整的数据表达链路，其覆盖数据接入、加工、编排、语义建模到Agent协作的完整链路，在它的帮助下，企业可以把经由Lakebase处理的多模态数据近一步业务化、指标化，进而更好地为上层应用服务。

换言之，基于OceanBase湖库一体AI数据库，企业可以真正意义上从自身的全部业务积淀和业务表达出发，构建出适配自身的“指标平台”和“内部数据开发平台”，进而让前端Agent对企业业务环境有更充分、准确的理解。

最上层，OceanBase DataPilot，它让不懂SQL的业务人员直接用自然语言完成分析报告和数据看板。和DataStudio类似，基于底层的全模态数据理解，企业基于OceanBase DataPilot，可以获得更适配企业业务的回答和数据分析。

这也恰是OceanBase湖库一体AI数据库的核心产品拼图。能清晰可见的是，在这个新的数据库架构汇总，企业对于AI需求正在被从底层满足，不论是多模表，还是全模搜索引擎，抑或是秒级fork数据库的能力，这些能力本身都在为当下企业最急需的Agent表达服务——让Agent能自我进化，全面理解企业业务，在保证安全性和一致性的前提下准确实时表达。

从某种角度来看，这种设计也更在重新定义数据库在AI时代的价值——其不再仅仅是一个数据存储计算模块，而更在成为企业在AI时代的“核心大脑”，“这个大脑”是决定企业能否构建出适配自身Agent，把AI转化为企业生产力的关键。

三、2026年，OceanBase和AI数据库站上新起跑线

从时间来看，这次OceanBase的湖库一体AI数据库并不是OceanBase的“首秀“。

“其实去年我们在做这件事的时候，就模模糊糊看到AI的需求很不一样。”杨冰表示，“当时我们就尝试用AI原生的方式在内核引擎上修改，最后我们在产品上解放掉一些枷锁，以轻量版的方式推出了OceanBaseseekdb，保持一个月迭代一次，初衷就是想看看能不能为Agent和非结构化数据专门设计这样一个数据库。”

一段时间测试后，伴随着来自客户现场和市场的正反馈，OceanBase团队决定大举压上。据了解，如今在OceanBase内部，有专门的团队负责湖库一体AI数据库产品的研发迭代。

这种迭代不仅在更适配AI环境的产品层面，也在真实落地现场。杨冰介绍，如今OceanBase团队会和面向不同行业的SI（集成商）一起，帮助其做好既有的数据库业务之外，也帮助其将能力延伸到AI层面，以更好地满足企业AI数据需求。

实际上，OceanBase的这套架构在既有的积淀之外，其也诞生于中国最前沿的AI生产场景。

即OceanBase的湖库一体AI数据库，伴随的是蚂蚁灵光、阿福等国民级AI产品的进化过程——以蚂蚁灵光为例，其已然累计生成数千万个“闪应用”，每个应用都是一个独立的Agent数据空间，传统“少数据库+大数据量”的架构设计很难满足这种“多数据库+小数据量”的新Agent范式。

OceanBase AI数据库基于成型的海量逻辑库能力，让这些千万个Agent的数据空间低成本共存、按需启用、闲时近乎零成本。一个数据是，相较传统多系统方案，OceanBase AI数据库可降低整体TCO约30%-50%。

同样的成长土壤还有阿福。作为如今服务上亿用户的健康管理APP，其准确性建立在能够不断发现bad case、修复问题、重新评估的持续迭代基础之上。

这也恰是当下市面上称之为Agent Harness的工程体系构建。对阿福这样的医疗专业级AI产品而言，其最核心的难点在于构建一套不断进化的Agent评测——评测过程中Agent会调用流程、改写策略、改写数据，但所有这些都不能影响和污染线上生产数据。

传统数据库很难支持这种大规模的并行试错和自我进化，但OceanBase AI数据库可以做到，基于通过Fork Database 功能，可以为AI提供了即用、即建、即抛的数据库沙箱——毫秒级创建、低成本开销、支持AI的并行试错和快速评测，最终推进产品进化。

需求在蚂蚁风控安全场景中，其对数据一致性有严格要求，基于OceanBase，其可以实现不同数据之前的协同一致调用，通过事务机制保证一致性，将漏判率降到最低。

可以说，这些海量真实调用和最先进的AI需求，也恰反向推动了OceanBase湖库一体AI数据库的能力成型：实时性、多模态统一纳管、沙箱隔离环境——这些都在日均亿级调用中锤炼出来的产品判断。

当模型能力趋于同质化、算力成为通用基础设施，AI竞争的主战场正在从“谁的模型更强"转向"谁的数据底座更能支撑AI走进核心业务”，对数据库而言，其不单纯需要调整某个模块，更需要调整自身的“角色”和“底层内核”。

正如OceanBase CTO杨传辉在发布会上的表达：“真正的一体化，必须发生在架构层。湖库一体不是数据库和数据湖的简单拼接，而是在同一套引擎中统一管理多模态数据，打通在线与离线处理。”

可以理解为，OceanBase湖库一体AI数据库的价值，恰恰在于将数据湖的开放与海量存储能力，与数据库的事务、分析与实时处理能力，构建到同一个架构中，形成AI时代的新数据基础设施。

这些思考和尝试，从世界范围来看，都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤，驱动着最创新和突破性的数据基建。

从更广的视角看，这轮新的软件浪潮里，中国厂商正在完成角色转变，从"追赶一个已有标准"，到参与塑造一个尚未定型的新品类，在AI数据库这条新赛道上，中国企业第一次有机会从标准的“跟随者”成长为“共同定义者”。

过去15年，OceanBase等中国软件企业证明了国产基础软件能做到全球领先。今天，AI数据库站上了新起跑线。当模型能力趋于同质化、算力成为通用基础设施，AI竞争的下半场将不在模型层，而在数据层。

从需求出发，以终为始。OceanBase选择的这条路，对应的恰是对AI时代整个数据底座需求的全面应答，也更是AI数据库的新起跑线。

查看全文

http://www.gsyq.cn/news/1618410.html

RuoYi-Cloud 免登录与页面内嵌实现

操作系统复习（二）

机器视觉自动曝光综述

Ubuntu 18.04 上 ROS1 Melodic 安装配置教程

机器学习模型生产部署：从PyTorch到K8s+Triton的工程实践

彻底解决ChatGPT幻觉问题！2026大模型虚假信息规避实战方案

元学习对话系统：少样本个性化适配的工业级实践

ORB-SLAM3 关键帧相似度计算

MySQL 迁移实战——如何实现真正的“零改造“平滑切换

耐压仪一开机5kV，屏幕数据直接跳飞？换过三个牌子才找到答案

2026长春靠谱人造草坪供应商，选这家不踩坑

Java毕设项目：基于 SpringBoot 的宠物诊疗设备调度管理系统的设计与实现基于 SpringBoot 的宠物疫苗信息公示与统计系统的设计与实现 (源码+文档，讲解、调试运行，定制等)

3分钟免费解锁QQ音乐格式限制：QMCFLAC2MP3让你的音乐真正自由播放

2026 GitHub最受欢迎的10个AI开源项目盘点

cw-omnibus：一本 Android 开发书的全部示例代码

Codex 新手优选的 6 个实用 Skill：让 AI 真正成为你的开发助手

鼠标革命：让你的普通鼠标在Mac上比触控板更好用！

运行codex时出现登录失败:failed to start login server: 以一种访问权限不允许的方式做了一个访问套接字的尝试。 (os error 10013) 解决方案

笔试强训 Day 19：小易的升级之路、礼物的最大价值、对称之美

内网渗透测试实战指南：从信息收集到域控攻防的完整攻击链

节点】[SmoothStep节点]原理解析与实际应用

2026年AIGC检测怎么过？5大检测平台对比+AI痕迹降低实战指南

ZXing：一个扫描条码的基础库

ICM-42688-P与PIC18F4553在机器人控制与工业监测中的应用

类比StandardServer, 抓住StandardService整体类依赖结构来理解

【节点】[Clamp节点]原理解析与实际应用

Kubernetes 核心机制与运维实践知识精要

ROS2基本操作指令：从“节点”到“机器人”的完整工具箱

重庆市二手房价格数据分析与可视化系统

相关文章：