当前位置: 首页 > news >正文

AI时代,数据库正在走向哪?

OceanBase湖库一体AI数据库的价值,恰恰在于将数据湖的开放与海量存储能力,与数据库的事务、分析与实时处理能力,构建到同一个架构中,形成AI时代的新数据基础设施。

这些思考和尝试,从世界范围来看,都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤,驱动着最创新和突破性的数据基建,中国软件企业第一次有机会从标准的“跟随者”成长为“共同定义者”。

作者|皮爷

出品|产业家

2026年,很多企业找到杨冰,他们颇具共性地提出一个问题:如何把企业的非结构化数据管起来。

作为OceanBase CEO,伴随着AI下半场的来临,杨冰能清晰感受到企业对“数据库”的特殊要求——数据库开始被要求不只要承担更多维的数据存储能力,更要帮助构建智能体在企业真实业务扎根生长的数据土壤。

这不是一件简单的事。如果向数据库的更细产品职能延伸,这其中涉及到的不仅是对多模态数据的纳管,更包括搜索引擎的重构、全盘数据的实时调取等等。

如果把视角放大到整个中国市场,会发现OceanBase和杨冰遇到的并不是偶然情况。过去18个月里,几乎所有中国企业的CTO都在做同一件事:把大模型“请进”公司。

但结果并不如预期中乐观。根据Gartner 2025年发布的AI技术成熟度曲线显示,如今,生成式AI已经进入初步"幻灭期"——即企业对其期望过高,但现实落地往往困难重重。去年年底麦肯锡发布的AI落地报告则更为直接——截止2025年年底,仅有不到20%的企业能从生成式AI应用中量化显著的ROI,大多数企业仍处于试点阶段。

问题出在哪?

一个在今年开始被越来越多企业CIO乃至CEO意识到的问题是:在模型参数和算力集群上之外,AI与企业核心业务之间的那道数据鸿沟,始终没有被认真填补。

"在通用的模型和企业所需的智能之间,存在着一道宏大的业务上下文鸿沟。"6月29日,在OceanBase湖库一体AI数据库发布会现场,杨冰表示,"模型再聪明,聊天聊得再好,如果说无法理解业务、参与决策、跑通流程,它就没法为企业创造价值。"

AI时代,企业到底需要怎样的数据库?又或者说,当Agent开始成为数据库的新使用者,当非结构化数据跃升为“业务know-how”核心资产,AI到底需要什么样的数据底座?以及怎样的数据库能驱动AI走进真实的生产系统?

15年前,双十一拉开了中国移动互联网的热潮,分布式数据库应运而生,站上数字化转型的主舞台;15年后的今天,伴随着AI进入人们生活,成为企业新生产力框架,数据库又正在迎来一次新变革。

一、AI数据库,走到了“岔路口”

2024年,在国内某头部车企的座舱大模型研发中,发生这样一个问题。

项目初衷是通过多模态大模型做智能座舱的个性化推荐——即模型需要同时理解用户的语音指令、车内摄像头捕捉的面部表情、以及车辆传感器数据,最终响应回复。

其数据库服务商提供的方案是在不同数据库产品之间通过“外挂AI”的方式帮助其完成数据检索和调用——语音文本存在NLP平台的向量库里,图像特征存在另一个视觉AI平台的存储里,车辆传感器数据存在时序数据库里。

但问题很快产生。即前端的Agent要生成一个推荐,至少要做三次跨系统调用,反映到前端则是用户的每次请求座舱大模型每次都需要很长时间,更严重的问题在于三个系统的数据时间无法保持一致,如图像有200ms延迟,传感器数据有500ms延迟,这也就导致Agent给出的答案并不是基于真实数据和需求的答案,为整个项目带来影响。

这正是伴随着AI大模型浪潮开始,目前不少企业采取但却屡屡碰壁的“数据库+AI”路线。

在回答"AI需要什么样的数据底座"之前,不妨先来看当下行业内正在被趟出来的两条路。

第一条路,就是上文所示,在存量架构上"适配AI"。

这条路过去两年有大量样本。即传统数据库保持原有内核不变,在外围叠加向量检索引擎、全文检索插件或独立的AI中间件。关系型数据库搭配外部向量库、数据湖上搭建检索层、Elasticsearch叠加Embedding管道——这些组合拳往往能带来不错的Demo效果,由于不需要调整核心系统,企业接受度也比较高。

但真正把它放进生产环境,问题就开始冒出来。

最直观的一个是:智能体拿到的永远不是完整的业务事实。一笔交易的数字存在关系型数据库里,对应的合同文本躺在对象存储里,客服录音的向量存在另一套引擎里。智能体要理解这笔交易的全貌,就得跨三个系统拼数据——其中的延迟问题、数据不对齐问题会从根本上动摇前端的AI准确度。换言之,架构裂缝很难被填平。

其次,成本。在这条路线中,海量原始数据被直接灌给大模型做推理,一次推理往往需要消耗海量的Token。理想的做法应该是"先过滤,再调用"——在数据底座内部完成多模态混合检索,只把最相关的信息喂给模型。

但多系统拼装的由于检索和理解被割裂在不同的组件里,无法绕过API自行完成调用。

此外,在今年这条路线还出现一个更大的问题,即伴随着多智能体架构和LOOP工程的兴起,Agent无法安全地试错自进化。以蚂蚁阿福、灵光为例,在每个产品内部其同时运转的是成千上万个Agent。每个Agent都需要一个独立的试验环境——做对了保留,做错了回滚。但在传统架构下,这种独立沙箱环境在成本上根本不可行。

在第一个路线之外,还有第二条路,就是从数据库内核出发"重写底座"。

即服务商不以兼容旧架构为首要约束,而是围绕AI的使用方式和数据形态,重新设计数据的组织、存储、检索与调用方式。

这个路线的产品设计对应的是一个本质的思考,即“AI数据库的本质需求是什么”,如果向上延伸,不难得出结论——多模态统一存储、混合搜索原生内置、Agent友好架构、在线与离线数据闭环。

但客观看,这条路并不好走。即如果要满足这些新需求,无异于对传统数据库架构的重新颠覆,其中的引擎设计、固有的存算分离架构,甚至底层的数据关系表都需要重写,唯有如此,才能完成对Agent实时调用和多模态需求的完全满足。

虽表达形式不同,但这两条路线本质都在求解一个问题:AI时代,数据库正在迎来一个全新且不可避免的挑战——AI驱动的世界里,数据到底需要被以怎样的形式调用、分析、使用和流转?

二、OceanBase,重走一条AI路

6月29日,一张测试集成绩被OceanBase放到台前。

在MSMARCO测试集中,OceanBase在Top10无过滤条件和Top100且1%过滤率双重指标中,性能表现均超过Elasticsearch;前者OceanBase为5.895毫秒,Elasticsearch为7.448毫秒,后者OceanBase为12.775毫秒,Elasticsearch则是高达16.614毫秒。

对MSMARCO测试集的一个介绍是,其是业内公认的、用于信息检索和问答系统的标准大规模数据集,880万Passage的规模足以模拟高并发、大数据量的真实生产环境。

其中,Top10平均延迟对应的是衡量系统返回最相关的前10条结果所需的平均时间,在前端应用侧,这直接关系到用户感知的响应速度;Top100平均延迟则是衡量返回前100条结果的平均时间,更多用于评估系统在复杂查询或大结果集下的吞吐能力。

在这两项在AI时代足够重要的底层能力上,OceanBase的性能均超过了专门做搜索起家的Elasticsearch。

它做对了什么?

这张测试集成绩单被放到台前的同时,在当天的发布会上,OceanBase也正式向外界展示了自己在AI时代的数据库新思考——发布湖库一体AI数据库,宣布从底层重构AI数据库。

OceanBase选择的这条路,对应的恰是业内罕见的“第二条路线”——真正为AI时代构建一套专属的数据基座。

这也正是OceanBase湖库一体AI数据库的核心目标。换言之,湖库一体AI数据库并不是在原有数据库基础上叠加AI插件,而是重写底层,基于真实的AI需求,倒推出一套新的数据库架构。

首先,底层也是最核心的OceanBase Lakebase。它的核心设计是"多模表"——基于这张表,结构化数据、非结构化数据和向量数据可以在同一张表里被统一管理。一张表可以同时容纳交易记录、文本段落、图片、音频、视频文件和向量Embedding。

这个设计对应的不只是一个工程细节,而是满足当下最真实的AI前端需求:智能体不再需要跨系统拼数据,它面对的就是一个完整的业务事实,与此同时,OceanBase还在多模表中引入了"AI列"概念——可以对表中的多行数据、多模数据同时执行AI搜索、计算(如Embedding生成、打标),把多模态数据处理的一致性写进数据库的底层内核。

除此之外,其还支持秒级Fork Database的数据沙箱——即每个Agent可以基于Loop框架构建出一套自进化、自反馈的独立沙箱环境,基于独立隔离试验空间实现自进化,智能体和智能体之间互相独立,互不干扰。

恰如前文所言,一个当下的共识是,未来在企业内部,多Agent架构将成为业务表达的常态,在协作的同时如何让每个Agent能基于LOOP体系稳定地实现自进化,其中必需的设计恰是智能体开发环境的隔离。这也是这个设计的精妙之处。

中间层,OceanBase DataStudio。对其的一个描述是,它可以帮助企业构建完整的数据表达链路,其覆盖数据接入、加工、编排、语义建模到Agent协作的完整链路,在它的帮助下,企业可以把经由Lakebase处理的多模态数据近一步业务化、指标化,进而更好地为上层应用服务。

换言之,基于OceanBase湖库一体AI数据库,企业可以真正意义上从自身的全部业务积淀和业务表达出发,构建出适配自身的“指标平台”和“内部数据开发平台”,进而让前端Agent对企业业务环境有更充分、准确的理解。

最上层,OceanBase DataPilot,它让不懂SQL的业务人员直接用自然语言完成分析报告和数据看板。和DataStudio类似,基于底层的全模态数据理解,企业基于OceanBase DataPilot,可以获得更适配企业业务的回答和数据分析。

这也恰是OceanBase湖库一体AI数据库的核心产品拼图。能清晰可见的是,在这个新的数据库架构汇总,企业对于AI需求正在被从底层满足,不论是多模表,还是全模搜索引擎,抑或是秒级fork数据库的能力,这些能力本身都在为当下企业最急需的Agent表达服务——让Agent能自我进化,全面理解企业业务,在保证安全性和一致性的前提下准确实时表达。

从某种角度来看,这种设计也更在重新定义数据库在AI时代的价值——其不再仅仅是一个数据存储计算模块,而更在成为企业在AI时代的“核心大脑”,“这个大脑”是决定企业能否构建出适配自身Agent,把AI转化为企业生产力的关键。

三、2026年,OceanBase和AI数据库站上新起跑线

从时间来看,这次OceanBase的湖库一体AI数据库并不是OceanBase的“首秀“。

“其实去年我们在做这件事的时候,就模模糊糊看到AI的需求很不一样。”杨冰表示,“当时我们就尝试用AI原生的方式在内核引擎上修改,最后我们在产品上解放掉一些枷锁,以轻量版的方式推出了OceanBaseseekdb,保持一个月迭代一次,初衷就是想看看能不能为Agent和非结构化数据专门设计这样一个数据库。”

一段时间测试后,伴随着来自客户现场和市场的正反馈,OceanBase团队决定大举压上。据了解,如今在OceanBase内部,有专门的团队负责湖库一体AI数据库产品的研发迭代。

这种迭代不仅在更适配AI环境的产品层面,也在真实落地现场。杨冰介绍,如今OceanBase团队会和面向不同行业的SI(集成商)一起,帮助其做好既有的数据库业务之外,也帮助其将能力延伸到AI层面,以更好地满足企业AI数据需求。

实际上,OceanBase的这套架构在既有的积淀之外,其也诞生于中国最前沿的AI生产场景。

即OceanBase的湖库一体AI数据库,伴随的是蚂蚁灵光、阿福等国民级AI产品的进化过程——以蚂蚁灵光为例,其已然累计生成数千万个“闪应用”,每个应用都是一个独立的Agent数据空间,传统“少数据库+大数据量”的架构设计很难满足这种“多数据库+小数据量”的新Agent范式。

OceanBase AI数据库基于成型的海量逻辑库能力,让这些千万个Agent的数据空间低成本共存、按需启用、闲时近乎零成本。一个数据是,相较传统多系统方案,OceanBase AI数据库可降低整体TCO约30%-50%。

同样的成长土壤还有阿福。作为如今服务上亿用户的健康管理APP,其准确性建立在能够不断发现bad case、修复问题、重新评估的持续迭代基础之上。

这也恰是当下市面上称之为Agent Harness的工程体系构建。对阿福这样的医疗专业级AI产品而言,其最核心的难点在于构建一套不断进化的Agent评测——评测过程中Agent会调用流程、改写策略、改写数据,但所有这些都不能影响和污染线上生产数据。

传统数据库很难支持这种大规模的并行试错和自我进化,但OceanBase AI数据库可以做到,基于通过Fork Database 功能,可以为AI提供了即用、即建、即抛的数据库沙箱——毫秒级创建、低成本开销、支持AI的并行试错和快速评测,最终推进产品进化。

需求在蚂蚁风控安全场景中,其对数据一致性有严格要求,基于OceanBase,其可以实现不同数据之前的协同一致调用,通过事务机制保证一致性,将漏判率降到最低。

可以说,这些海量真实调用和最先进的AI需求,也恰反向推动了OceanBase湖库一体AI数据库的能力成型:实时性、多模态统一纳管、沙箱隔离环境——这些都在日均亿级调用中锤炼出来的产品判断。

当模型能力趋于同质化、算力成为通用基础设施,AI竞争的主战场正在从“谁的模型更强"转向"谁的数据底座更能支撑AI走进核心业务”,对数据库而言,其不单纯需要调整某个模块,更需要调整自身的“角色”和“底层内核”。

正如OceanBase CTO杨传辉在发布会上的表达:“真正的一体化,必须发生在架构层。湖库一体不是数据库和数据湖的简单拼接,而是在同一套引擎中统一管理多模态数据,打通在线与离线处理。”

可以理解为,OceanBase湖库一体AI数据库的价值,恰恰在于将数据湖的开放与海量存储能力,与数据库的事务、分析与实时处理能力,构建到同一个架构中,形成AI时代的新数据基础设施。

这些思考和尝试,从世界范围来看,都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤,驱动着最创新和突破性的数据基建。

从更广的视角看,这轮新的软件浪潮里,中国厂商正在完成角色转变,从"追赶一个已有标准",到参与塑造一个尚未定型的新品类,在AI数据库这条新赛道上,中国企业第一次有机会从标准的“跟随者”成长为“共同定义者”。

过去15年,OceanBase等中国软件企业证明了国产基础软件能做到全球领先。今天,AI数据库站上了新起跑线。当模型能力趋于同质化、算力成为通用基础设施,AI竞争的下半场将不在模型层,而在数据层。

从需求出发,以终为始。OceanBase选择的这条路,对应的恰是对AI时代整个数据底座需求的全面应答,也更是AI数据库的新起跑线。

http://www.gsyq.cn/news/1618410.html

相关文章:

  • RuoYi-Cloud 免登录与页面内嵌实现
  • 操作系统复习(二)
  • 机器视觉自动曝光综述
  • Ubuntu 18.04 上 ROS1 Melodic 安装配置教程
  • 机器学习模型生产部署:从PyTorch到K8s+Triton的工程实践
  • 彻底解决ChatGPT幻觉问题!2026大模型虚假信息规避实战方案
  • 元学习对话系统:少样本个性化适配的工业级实践
  • ORB-SLAM3 关键帧相似度计算
  • MySQL 迁移实战——如何实现真正的“零改造“平滑切换
  • 耐压仪一开机5kV,屏幕数据直接跳飞?换过三个牌子才找到答案
  • 2026长春靠谱人造草坪供应商,选这家不踩坑
  • Java毕设项目:基于 SpringBoot 的宠物诊疗设备调度管理系统的设计与实现 基于 SpringBoot 的宠物疫苗信息公示与统计系统的设计与实现 (源码+文档,讲解、调试运行,定制等)
  • 3分钟免费解锁QQ音乐格式限制:QMCFLAC2MP3让你的音乐真正自由播放
  • 2026 GitHub最受欢迎的10个AI开源项目盘点
  • cw-omnibus:一本 Android 开发书的全部示例代码
  • Codex 新手优选的 6 个实用 Skill:让 AI 真正成为你的开发助手
  • 鼠标革命:让你的普通鼠标在Mac上比触控板更好用!
  • 运行codex时出现登录失败:failed to start login server: 以一种访问权限不允许的方式做了一个访问套接字的尝试。 (os error 10013) 解决方案
  • 笔试强训 Day 19:小易的升级之路、礼物的最大价值、对称之美
  • Java毕设选题推荐:基于 Java 的学术资料智能检索管理系统的设计与实现 基于 Java 的文献资源分类统计管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 内网渗透测试实战指南:从信息收集到域控攻防的完整攻击链
  • 节点】[SmoothStep节点]原理解析与实际应用
  • 2026年AIGC检测怎么过?5大检测平台对比+AI痕迹降低实战指南
  • ZXing:一个扫描条码的基础库
  • ICM-42688-P与PIC18F4553在机器人控制与工业监测中的应用
  • 类比StandardServer, 抓住StandardService整体类依赖结构来理解
  • 【节点】[Clamp节点]原理解析与实际应用
  • Kubernetes 核心机制与运维实践知识精要
  • ROS2基本操作指令:从“节点”到“机器人”的完整工具箱
  • 重庆市二手房价格数据分析与可视化系统