
很多企业开始建设知识库时,第一反应是:选哪个大模型?接哪个平台?用哪个向量数据库?
这些问题固然重要,但在真实落地中,它们往往不是第一个卡点。
更常见的情况是,企业已经积累了大量资料,也已经接入了大模型,但系统回答效果并不稳定:
文档明明已经上传,提问时却找不到;
PDF里的表格被拆乱,答案引用错位置;
Excel台账里的字段有明确业务含义,模型却只看到一堆列名和数字;
PPT、扫描件、工程图纸、视频资料进入系统后,很多关键信息没有被理解;
回答看起来很完整,却说不清依据来自哪份文件、哪一页、哪个版本。
这时再去更换大模型,通常只能改善一部分问题。因为知识库的效果,不只取决于“最后谁来回答”,更取决于企业资料在进入系统之前,是否被正确处理、组织和检索。
一套能用起来的企业知识库,通常要先解决三个问题:
资料怎么进来?
知识怎么组织?
答案怎么可信地用起来?
这三个问题对应的是企业知识库建设中的三层能力:文件处理、知识理解、检索生成。
在中山大学人工智能研究院智能软件研究中心团队的可信知识库方案中,也正是按照这三层来组织完整链路:底层负责把多类型资料处理成可管理、可索引的知识单元,中间层负责把不同模态和不同来源的知识对齐,顶层则负责权限过滤、召回重排、答案生成、来源追溯和反馈闭环。
01
资料怎么进来:把资料处理成可用的知识单元
企业资料很少是干净的纯文本,它可能是一份带有复杂表格和图片的PDF,也可能是一套Word制度文件、一批Excel台账、一组PPT培训材料、一段会议录音、一份设备说明视频,或者是一张工程图纸。
如果只是把这些文件直接上传到知识库,系统看似“读进去了”,但可用的信息可能已经丢了一半。
比如PDF文档,难点不只是把文字提取出来。很多企业PDF里有多栏排版、图表、扫描图片、脚注说明和跨页表格。简单抽文本,很容易造成段落顺序混乱、表格结构丢失、图片信息缺失。
再比如Excel和业务报表。表格里的信息依赖行列关系、字段含义、统计口径和权限范围。一个字段名在数据库里可能只是英文缩写,但在业务里对应的是“物料编码”“库存数量”“组织名称”或“生产日期”。如果不先做业务语义转换,模型就很容易答得看似合理、实际错位。
所以,文件处理层解决的是让企业原始资料变成可管理、可索引、可追溯的知识单元。
这一步做得越扎实,后面的检索和生成才越稳定。很多RAG系统答不准,并不是因为模型不够大,而是因为一开始进入系统的知识就是碎的、乱的、缺上下文的。
02
知识怎么组织:保住结构、关系和上下文
很多知识库项目会把文档切成若干文本块,再做向量化索引。
这个方法简单有效,但也很容易出问题:切得太碎,上下文丢失;切得太长,检索不准;只按字数切,章节结构、表格关系、图文关系都会被破坏。
企业知识有一个特点:很多答案不在某一句话里,而在一组关系里。
一个制度条款,需要结合标题层级和适用范围来理解;
一个产品参数,需要结合表格表头和所在型号来理解;
一个PPT页面,需要结合图示、标题和备注来理解;
一段视频内容,需要把语音转写和对应画面关联起来;
一个报表查询,需要知道字段含义、表连接关系、组织权限和统计口径。
这要求知识库不只是“存文本”,而是要建立知识之间的结构关系。
知识理解层要解决的,就是让不同类型、不同来源、不同模态的资料能够对齐。
对于图文混排文档,可以通过OCR、版面分析和视觉语言模型,把页面中的文字、图像、表格和视觉信息统一组织起来;
对于音视频资料,可以把音频转写文本、视频帧和时间戳关联起来;
对于业务表格,可以把字段编码、枚举值、表连接关系转成业务可理解的结构。
这样做的价值在于:用户提问时,系统不再只是找“语义相似的一段文字”,而是能在结构、来源、时间、权限和业务语义之间建立更稳定的匹配关系。
普通搜索解决的是“找得到”,企业知识库要解决的是“找得准、对得上、用得稳”。
03
答案怎么用起来:让回答有依据、可核验、可修正
当资料已经处理好,知识也组织好了,才进入用户能感受到的部分:检索生成。
这一层最容易被理解成“接一个大模型来回答问题”。但企业场景中,重要的不是回答得多流畅,而是回答是否可信可靠。
一个可用的企业知识库问答系统,至少要回答好几个问题:
用户有没有权限看这份资料?
系统召回的是不是最新版本?
答案依据来自哪里?
资料不足时能不能提示不确定,而不是编一个答案?
用户反馈错误后,知识库能不能持续修正?
这就需要一条完整的RAG Pipeline(检索增强生成管道)。
以典型企业知识库流程为例,知识入库阶段需要完成资料整理、解析、结构化、权限标签标注和业务侧校验;在线问答阶段需要进行问题识别、权限过滤、知识召回、重排、答案生成、来源展示和反馈修复。
这类系统的关键,是让它在企业可接受的边界内回答。
当任务从“问一句答一句”升级到“帮我完成一件事”,系统还需要进一步具备任务拆解、工具调用、多源检索和结果校验能力。
例如,自动比对多份资料、生成检测方案、整理项目材料、辅助报告撰写、根据内部知识形成决策建议等。
这时,知识库就不只是问答工具,而开始变成能够参与业务流程的智能体。
04
什么样的企业适合先做知识库智能体?
如果企业内部已经出现下面这些情况,通常就值得考虑建设一套知识库或智能体系统:
资料很多,但找资料主要靠人;
文档很多,但版本不清;
表格很多,但解释成本高;
业务问答需要可信依据,不能只追求回答流畅;
希望AI不只是回答问题,还能参与资料比对、方案生成、流程辅助和报告撰写。
这些需求背后,本质上都不是单点模型能力问题,而是企业知识资产如何被处理、组织和调用的问题。
05
这个系列接下来讲什么?
这篇是“可信知识库”系列的第一篇。
接下来,我们会围绕真实企业场景继续展开,尽量少讲空泛概念,多讲具体问题、技术做法和适用场景。
后续内容会包括:
PDF不是文本:企业知识库的第一道难关
企业内部资料进AI系统,最难的是保住结构和上下文
表格、台账、报表进知识库,不能简单向量化
制造业做知识库,绕不开图纸、BOM和工艺规范
企业AI助手要上线,必须说得清依据、权限和责任
AI助手不该只会回答问题,还要能推动流程
结语
能落地的知识库,通常不是从“接入大模型”开始的。
大模型让企业重新看到了知识管理的价值。
但能落地的知识库,不是把文件上传后等模型回答,也不是做一个聊天窗口就结束。
它需要把企业已有的PDF、Office文档、表格、图纸、音视频和业务数据,转化为可理解、可检索、可追溯、可持续维护的知识资产。
从文件处理,到知识理解,再到检索生成,这三层能力决定了企业知识库能不能用起来。
我们也会在后续系列中继续拆解这些问题:哪些资料适合先入库,哪些业务适合先做智能体,哪些环节需要先打好数据和知识基础。
如果您的企业正在建设内部知识库、智能问答系统或业务智能体,尤其遇到复杂文档处理、表格问答、图纸资料理解、多部门权限控制、答案来源追溯等问题,欢迎与中山大学智能软件研究中心团队交流。
人工智能与机器人专委会可信知识库技术专家

何笑雨
中山大学软件工程学院副教授,博导
中山大学百人计划青年学术骨干。博士毕业于中山大学,先后在中山大学和南洋理工大学从事博士后研究工作。从事大模型、智能体、智能计算相关的基础研究,在AIJ,SIOPT, TEVC等期刊发表学术论文三十余篇,谷歌学术引用1000+,H指数17。主持国家自然科学基金,广东省重点研发子课题等科研项目十余个。在可信知识库方面为广汽本田、海天味业等多家企业提供落地服务。
产学研合作联系
刘守国 手机/微信:13533786006
李 丹 手机/微信:18565067696
《“具智AI”知识专栏》由广东省制造业协会人工智能与机器人专委会与中山大学智能软件研究中心联合打造,由中山大学等高校专家定期分享人工智能与机器人最前沿技术硬核知识。
图片来源于网络,如有侵权请联系删除
技术支持:何笑雨
编辑:刘颖、叶健文
·END·
来源:可信智能体
电话:穆先生:18665021673
何小姐:18565191549
邮箱:frgj3790@163.com
扫一扫关注
微信公众号
电话:020-8230 8816
邮箱 : frgj3790@163.com