典型流程分为5步:
知识采集:从多源获取数据(文档、数据库、API、网页等),如企业内部的FAQ、产品手册、行业报告;
知识清洗:去重、纠错、脱敏(如隐去用户隐私),确保数据质量;
知识结构化:将非结构化文本(如PDF)转换为结构化格式(如JSON、三元组“实体-关系-实体”),或通过Embedding模型转为向量;
知识索引:存入向量数据库(如Milvus、Pinecone)或图数据库(如Neo4j),建立高效检索索引;
知识更新与维护:定期同步新增/过期知识,清理无效内容,保证知识库时效性。
相关阅读