老文档正在被遗忘
企业里最容易被忽视的数字资产,不是数据库里的结构化数据,而是散落在各个服务器角落里的 .ppt 和 .doc——那些上世纪90年代末到本世纪初生成的老文件。
它们为什么还在?因为里面装着建厂初期的设备参数、改制时期的合同草案、第一代产品的设计说明、老工程师留下的技术笔记。这些文件早就没人主动翻阅了,但谁也不敢删。

可当企业真正想用它们的时候——比如做知识库检索、做数据中台接入、做档案电子化归档——问题就来了:
现在的软件,读不了。
不是读不好,是根本不支持。市面上主流的文档读取组件,对老版二进制格式的兼容性逐年下降。NPOI、Aspose、Open XML SDK……它们要么只支持新版格式,要么在无Office环境的Linux服务器上报错,要么对损坏文件完全束手无策。而最新版Office和WPS虽然能打开,但那是桌面端——生产服务器上不可能装这些。
于是这些老文档就成了一座座打不开的仓库。明知道里面有东西,就是拿不出来。
规模才是真正的难题
如果只有几十份,其实好办——找台装了Office的机器,手动打开、复制、粘贴,一天也就干完了。可企业面临的是多少?
成百上千,甚至上万份。
某省档案馆,单是2003年以前生成的PPT就有两千多个。某大型制造企业,遗留的DOC合同和纪要超过五千份。人工打开复制?不现实。准确率无法保证,格式混乱,人工成本高到无法立项。
所以真正的需求是:批量、自动、准确——在不安装Office的服务器上,程序化地提取所有老文档文本。
我们怎么做
不依赖Office,不调用COM组件,不依赖任何第三方库。直接在二进制层面,按OLE复合文档规范逐字节解析。
老版 .ppt:定位文本原子,按幻灯片ID聚合成完整段落。
老版 .doc:解析文本分段表,跳过格式符,提取干净正文。
同一套引擎,同时支持两种格式。封装为独立组件,无外部依赖,Linux和Windows都能跑。
实测六百余份历史文件,PPT提取成功率96.8%,DOC达98.2%。平均每份耗时不到200毫秒。

并不是复杂的技术
这一集讲的东西,技术上并不神秘。就是对老格式规范的一次完整实现。
它的价值不在复杂度,而在实用性。那些被现代工具遗忘的老文档,通过这套方案,能以极低成本被重新纳入企业知识体系。不需要人工逐份处理,不需要给服务器装Office,一次部署,永久使用。
让老文档不再是被遗忘的角落,让企业历史数据真正流动起来。
