搜索引擎索引系统概述
搜索引擎的核心流程涵盖抓取、存储、页面分析、索引和检索。过去几周已介绍抓取环节,本文将聚焦索引系统——其核心使命是解决“亿级网页库中毫秒级响应检索需求”的挑战。若用户等待时间过长,体验必然受损,因此高效索引技术至关重要。
倒排索引:

用户输入的查询词(Query)经切分后,检索本质转化为多关键词对应页面集合的求交过程。例如,用户搜索“AI 技术”,系统需快速定位同时包含“AI”和“技术”的页面。传统顺序扫描海量文档显然不可行,而倒排索引(Inverted Index) 通过逆向映射实现高效检索:
这种转换使检索变为关键词对应文档列表的快速比对与求交,显著压缩响应时间至毫秒级。
倒排索引构建流程
1. 页面分析:结构化内容标记
原始页面被拆解为多个语义区块并分类标记,例如:
此步骤为后续分词和索引提供结构化输入,避免无关内容干扰精度。
2. 分词与语义处理:从文本到术语
分词引擎对标记内容(如标题)进行深度处理:
输出结果为三元组:`(Term文本, TermID, 词性)`,例如 `(“算法”, 508, 名词)`。
3. 倒排索引生成:Term→Doc 映射
基于分词结果,系统建立核心索引结构:
为何选择 Term→Doc 而非 Doc→Term?
技术价值与挑战