为什么需要 RAG:给 LLM 配一本「可随时翻的书」

星期日, 4月 5, 2026 | 1分钟阅读 | 更新于 星期三, 4月 8, 2026

@

RAG(Retrieval-Augmented Generation,检索增强生成)解决的是一件很朴素的事:模型记不住你公司内部的最新文档、你刚写的笔记、或闭源知识库里的细节——但它很会组织语言。RAG 的做法是:先检索相关片段,再把这些片段塞进提示里,让模型基于材料回答。

没有 RAG 时会发生什么

用户问:「我们团队上周定的接口错误码规范是什么?」纯 LLM 只能凭训练数据猜,轻则过时,重则编造。
有了 RAG,系统会先从你的文档库里捞出相关段落,再让模型「只依据这些段落」总结或回答。

典型流程(概念级)

  1. 切分与索引:把 PDF、Markdown、网页等切成小段,用向量模型变成向量,存入向量数据库。
  2. 检索:用户提问同样转向量,做相似度搜索,取 Top-K 段文本。
  3. 生成:把检索结果作为上下文,提示模型:先引用要点,再回答;若材料不足则说明。

工程上还要处理:重排序(rerank)、权限、引用溯源、防提示注入等——这里不展开,只建立心智模型即可。

和「微调」怎么分工(粗线条)

  • RAG:适合知识常更新、需要可解释「依据来自哪段文档」的场景。
  • 微调(Fine-tuning):更适合固定风格、固定任务格式、或把领域术语「刻进权重」——成本与数据准备通常更高。

很多产品会 RAG + 轻量微调 一起用:检索解决「说什么」,微调解决「怎么说得更像你们公司」。

若你正在搭建个人知识库,先从「把笔记向量化 + 本地小工具问答」试起,比一上来追大架构更实在。

关于我

大家好,我是 lew。这里主要记录学习、工作与阅读里的碎片想法——偏工程实践,少空话;写给自己备忘,也欢迎路过的你顺手翻翻。

经历与方向

从事互联网研发与技术管理十余年,长期负责团队建设、架构演进、技术选型与交付节奏;经历从客户端到服务端、从功能迭代到线上治理的完整链路,习惯在稳定性、成本与交付速度之间做权衡。

技术栈与工程

后端以 GolangNode.js(及常见服务端框架)为主;在分布式与实时服务微服务(RPC、服务发现、可观测)、容器与编排Docker / Kubernetes)、CI/CD 与云上架构上有较多实践。数据侧熟悉多种关系型 / 文档型数据库、缓存与消息队列;关注高可用、安全与弹性,也关注研发协作与发布效率。

AI / 大模型工程化

持续跟进 LLM 落地与工程化,方向包括但不限于 RAGLoRAAgentMCPSKILL 等缩写所指领域;更关心「模型能力」如何与业务约束、数据边界、可观测与发布节奏对齐,而不是单点炫技。文里会尽量直接用这些缩写,避免冗长中文释义。

管理与协作

在敏捷与 Scrum 实践、跨职能沟通与版本迭代上有较多经验;习惯用可度量的目标、评审与回顾推动改进,而不是只堆流程文档。

学习

MBA 在读,侧重创新创业与组织管理,用来补足商业与战略视角,和技术判断互相校准。

博客里可能写什么
  • LLMRAGAgent 等在实际业务里的取舍与踩坑
  • 后端、分布式与可观测的一得之见
  • 工具链、CI/CD 与个人工作流里的「人机协作」节奏

若你也关心 LLMRAG、软件工程或知识管理,欢迎偶尔回来看看。

联系可通过站点页脚邮箱;合作与交流请说明来意。