本地大模型

公众号只给 5 秒，我硬是塞进了一个 AI（附踩坑清单）

微信被动回复只有 5 秒，云端 API 又慢又不稳。我用一台没显卡的小服务器跑开源小模型，零 API 费用给公众号做了个 AI 客服——5 个坑和最后的解法。

我的公众号自动回复一直很蠢——读者发什么，它都只会甩同一句话。更尴尬的是，我那句"有问题直接留言，我看到会回复"，其实是空头支票：消息根本没被记下来，发完就石沉大海。

我想给它加个能听懂人话的 AI：读者随便问点啥，它能像个客服一样回。听起来不难，对吧？我也是这么以为的。然后我就开始踩坑了。

坑 1：微信只给你 5 秒

第一个拦路虎，是微信公众号的"被动回复"机制：用户发来消息后，你必须在 5 秒内把回复返回，否则微信直接显示"该公众号暂时无法提供服务"。

5 秒，对一个大语言模型来说太短了。一句话还没生成完，时间就到了。

教训 1：先搞清楚平台的硬约束，再决定技术方案。我差点上来就接个大模型，那条路从一开始就是死的。

那就接个现成的云端大模型 API 呗。我试了——结果它又慢，又时不时返回 502。靠它在 5 秒内稳定回一句话，纯属赌运气。赌输了，用户就看到那句"无法提供服务"。

我不想把用户体验押在一个不稳定的外部服务上。于是决定：自己在本地跑一个小模型。免费、可控、不看别人脸色。

我手头有台闲置的小服务器——6 核 CPU、没有显卡、11G 内存。用 Ollama 把开源小模型一个个拉下来试（纯 CPU 推理）：

Qwen2.5-1.5B：快是真快（1 秒出头），但答得糙，还会自相矛盾——同一个问题，这次说"可以"，下次说"不行"。
Qwen2.5-3B：以为大一点会好，结果没好多少，还偶尔蹦出乱码。
Qwen2.5-7B：质量明显好了，但一句话要 10 秒——又撞 5 秒墙了。
Qwen3-4B（带"思考"的那版）：质量不错，但它每次都先输出一大段"让我想想…用户的意思是…"的思考过程，而且这个思考我怎么都关不掉（官方开关、提示词里加指令，全试了没用），每条十几秒。废了。

教训 2：模型不是越大越好。在"5 秒"这个约束下，够快和够准之间得找平衡点，盲目上大模型只会更糟。

为了对比，我同时加载了好几个模型在内存里。结果——OOM（内存不足），系统的"内存杀手"直接把跑模型的进程击毙了。11G 内存、还没有交换分区，根本扛不住多个模型同时驻留。

教训 3：小内存机器上，一次只留一个模型。我后来加了限制，也不再贪心。

最后救场的，是同一代的指令版——qwen3:4b-instruct（关键：它根本没有思考模式，不浪费时间在那段内心戏上）。同样跑在 Ollama 上、纯 CPU：

效果出乎意料地好：

实测下来，它用更小的体积，拿到了接近大模型的质量。约束逼出来的方案，反而更优雅。

收尾时我顺手补了开头那个"空头支票"：现在读者发来的每一条非指令消息，都会被自动记录下来——是问题、是反馈、还是吐槽，我在后台一目了然，还能一键筛出"像投诉/报错"的那些优先看。

那句"有问题直接留言，我看到会回复"，从此名副其实。

其实质量的真正分水岭，不在模型多大，而在那段系统提示词怎么写——这次先按下不表。这篇要是有人看，下次我把"怎么用一段提示词，把小模型调教成懂业务的客服"也复盘出来 🙌

微信扫码关注公众号 【喜乐成长路】，给它发条消息——问点啥、或者吐槽两句，看它怎么回。
（你发的每条也会进我后台的反馈记录，顺手帮我压测 😄）后续更新、源码、答疑也都发在那。

微信扫码关注公众号【喜乐成长路】

扫不了码？微信搜索 【喜乐成长路】 也能找到。