news 2026/5/11 20:43:34

知识库自动化 - 微信文章自动同步与AI编译系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识库自动化 - 微信文章自动同步与AI编译系统

📅 更新时间: 2026-05-11 | 标签: Python | OpenClaw | sage-wiki

项目概述

知识库自动化是一个全自动的微信公众号文章采集与AI知识库编译系统。通过微信机器人采集文章、同步到腾讯云服务器、使用sage-wiki进行AI编译,最终生成Obsidian知识库中的概念图谱。

特性说明
自动化采集OpenClaw微信机器人自动抓取公众号文章
服务器同步SSH从腾讯云定期拉取文件到本地
AI编译sage-wiki + DeepSeek + Ollama 双Provider架构
知识库输出到Obsidian(F:/MyVault)

一、系统架构

1.1 整体架构

┌─────────────────────────────────────────────────────────────────────────┐ │ 腾讯云服务器 (159.75.8.159) │ │ ┌────────────────────────────────────────────────────────────────────┐ │ │ │ OpenClaw 微信机器人 │ │ │ │ → 接收微信链接(公众号文章、B站视频) │ │ │ │ → 存入 /root/.openclaw/workspace/ │ │ │ └────────────────────────────────────────────────────────────────────┘ │ │ ┌────────────────────────────────────────────────────────────────────┐ │ │ │ sage-wiki compile --watch ← 监听新文件,自动编译 │ │ │ │ → Sources: 微信文章/ bilibili_output/ transcripts/ research/ │ │ │ │ → Output: wiki/concepts/ + wiki/summaries/ │ │ │ └────────────────────────────────────────────────────────────────────┘ │ │ ┌────────────────────────────────────────────────────────────────────┐ │ │ │ Ollama v0.23.2 (端口 11434) │ │ │ │ → nomic-embed-text:8k (embedding, 768维, 8192 tokens 上下文) │ │ │ └────────────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ ↓ 同步 ┌─────────────────────────────────────────────────────────────────────────┐ │ 本地 Windows │ │ ┌────────────────────────────────────────────────────────────────────┐ │ │ │ wechat_sync.py (定时同步) │ │ │ │ → 同步服务器 workspace → 本地 F:/MyVault/ │ │ │ └────────────────────────────────────────────────────────────────────┘ │ │ ┌────────────────────────────────────────────────────────────────────┐ │ │ │ sage-wiki 本地编译 │ │ │ │ → Go 1.26.2 + sage-wiki 最新版 │ │ │ │ → DeepSeek API (chat) + Ollama (embedding) │ │ │ └────────────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘

1.2 组件状态

组件版本状态说明
OpenClaw-✅ 运行中微信机器人,接收链接
sage-wiki最新版✅ 编译成功知识库编译引擎
Ollamav0.23.2✅ 运行中本地模型服务
nomic-embed-text:8k-✅ 已就绪768维,8192 tokens
DeepSeek API-✅ 正常deepseek-v4-flash

二、数据流向

微信/浏览器 → OpenClaw → 服务器 workspace/ ↓ sage-wiki compile --watch ↓ wiki/ (concepts + summaries) ↓ wechat_sync.py 同步 ↓ 本地 F:/MyVault/wiki/

三、项目结构

知识库自动化/ ├── src/ │ ├── core/ # 核心模块 │ │ ├── ai_processor.py # AI处理/摘要/标签 │ │ ├── file_manager.py # 归档到Obsidian │ │ ├── dedup.py # 去重 │ │ ├── knowledge_base.py # 知识库管理 │ │ ├── vector_store.py # 向量存储 │ │ └── transcriber.py # Whisper转录 │ ├── pipelines/ # 流水线 │ │ ├── wechat_article_pipeline.py # 文章归档 │ │ └── video_pipeline.py # 视频处理 │ ├── bots/ # 机器人 │ │ ├── feishu_bot.py # 飞书机器人 │ │ ├── feishu_server.py # Webhook服务 │ │ └── email_handler.py # 邮箱监控 │ └── sync/ # 同步 │ ├── wechat_sync.py # 服务器同步 │ └── wechat_monitor.py # 公众号监控 ├── scripts/ │ ├── ssh_helper.py # SSH封装工具 │ └── cleanup_wechat_images.py # 图片清理 ├── docs/ │ ├── 复盘.md # 项目历史 │ ├── 知识库管理手册.md # Hermes运维指南 │ └── 服务器wiki使用说明.md # 服务器操作 └── data/ └── config_test.yaml # 同步配置

四、核心模块详解

4.1 文件同步 (src/sync/wechat_sync.py)

功能:通过 SSH/SFTP 从服务器拉取文件到本地

同步目录

名称远程路径本地路径
wechat_articles/root/.openclaw/workspace/微信文章F:/MyVault/00_Inbox/微信文章
bilibili_output/root/.openclaw/workspace/bilibili_outputF:/MyVault/04_视频转录/B站
wiki_concepts/root/.openclaw/workspace/wiki/conceptsF:/MyVault/wiki/concepts
wiki_summaries/root/.openclaw/workspace/wiki/summariesF:/MyVault/wiki/summaries

核心代码

fromsrc.sync.wechat_syncimportServerSyncimportyamlwithopen('data/config_test.yaml','r')asf:config=yaml.safe_load(f)sync=ServerSync(config)result=sync.sync_directory_by_name('wiki_concepts')print(result)

4.2 SSH 工具 (scripts/ssh_helper.py)

功能:封装 SSH 连接,供 Hermes 远程执行服务器命令

# 查看磁盘空间python scripts/ssh_helper.py"df -h /"# 查看 Ollama 模型python scripts/ssh_helper.py"sudo ollama list"# 查看编译日志python scripts/ssh_helper.py"sudo tail -50 /var/log/sage-wiki/compile.log"

配置

HOST='159.75.8.159'USERNAME='ubuntu'KEY_FILE='D:/python学习历程/自制项目/tencent_ed25519.pem'

4.3 文章流水线 (src/pipelines/wechat_article_pipeline.py)

功能:微信文章 → AI 处理 → 归档到 Obsidian

fromsrc.pipelines.wechat_article_pipelineimportWechatArticlePipeline# 初始化pipeline=WechatArticlePipeline(config)# 处理所有待处理文章pipeline.process_all()

五、配置文件

5.1 同步配置 (data/config_test.yaml)

server_sync:host:159.75.8.159port:22username:ubuntukey_file:D:/python学习历程/自制项目/tencent_ed25519.pemdirectories:-name:wiki_conceptsremote:/root/.openclaw/workspace/wiki/conceptslocal:F:/MyVault/wiki/conceptsinclude_subdirs:false-name:wiki_summariesremote:/root/.openclaw/workspace/wiki/summarieslocal:F:/MyVault/wiki/summariesinclude_subdirs:false

5.2 服务器 sage-wiki 配置

位置/root/.openclaw/workspace/config.yaml

api:provider:openai-compatibleapi_key:YOUR_API_KEYbase_url:https://api.deepseek.com/v1models:summarize:deepseek-v4-flashextract:deepseek-v4-flashwrite:deepseek-v4-flashembed:provider:openai-compatibleapi_key:ollamabase_url:http://localhost:11434/v1model:nomic-embed-text:8ksearch:chunk_size:1000compiler:max_parallel:2mode:standard

关键配置点

  • search.chunk_size: 1000- 文本分块,解决 embedding 长度限制
  • compiler.mode: standard- 禁用 batch 模式(DeepSeek 不支持)
  • embed.model: nomic-embed-text:8k- 扩展上下文模型

六、编译结果

指标数值
Sources29
Summarized20
Concepts15
Articles15
Errors9 (图片格式)
成本~$0.19/次

七、运维指南

7.1 日常检查

# 1. 服务器磁盘空间python scripts/ssh_helper.py"df -h /"# 2. Ollama 模型状态python scripts/ssh_helper.py"sudo ollama list"# 3. sage-wiki 编译状态python scripts/ssh_helper.py"cat /root/.openclaw/workspace/.sage/status.json"

7.2 触发编译

# 服务器全量编译python scripts/ssh_helper.py"cd /root/.openclaw/workspace && sage-wiki compile --project . --fresh"# 本地编译cdF:/MyVault&&sage-wiki compile--project.--fresh

7.3 故障排查

问题解决方案
磁盘空间不足sudo apt-get clean -y
Embedding 报错检查search.chunk_size: 1000
Batch API 404设置compiler.mode: standard
图片处理失败确认 ignore 列表包含*.jpg/*.png

八、知识库闭环

服务器编译 (sage-wiki) → 本地同步 (wechat_sync.py) → 本地 wiki 目录

闭环验证

同步目标服务器本地状态
wiki_concepts/root/.openclaw/workspace/wiki/conceptsF:/MyVault/wiki/concepts✅ 15 文件
wiki_summaries/root/.openclaw/workspace/wiki/summariesF:/MyVault/wiki/summaries✅ 12 文件

九、相关文档

文档说明
docs/复盘.md项目开发历史记录
docs/知识库管理手册.mdHermes Agent 运维指南
docs/服务器wiki使用说明.md服务器操作速查

更新日志

版本日期说明
v1.02026-05-11初始版本,包含完整架构和运维指南

享受自动化知识管理的乐趣!🎉
s | F:/MyVault/wiki/summaries | ✅ 12 文件 |


九、相关文档

文档说明
docs/复盘.md项目开发历史记录
docs/知识库管理手册.mdHermes Agent 运维指南
docs/服务器wiki使用说明.md服务器操作速查

更新日志

版本日期说明
v1.02026-05-11初始版本,包含完整架构和运维指南

享受自动化知识管理的乐趣!🎉

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 20:43:19

掌握Palworld存档管理:专业级二进制转JSON工具实战指南

掌握Palworld存档管理:专业级二进制转JSON工具实战指南 【免费下载链接】palworld-save-tools Tools for converting Palworld .sav files to JSON and back 项目地址: https://gitcode.com/gh_mirrors/pa/palworld-save-tools Palworld存档工具(…

作者头像 李华
网站建设 2026/5/11 20:42:00

从像素到画面:深入解读VESA时序如何驱动1080P高清显示

1. 屏幕显示的基本原理:像素如何组成画面 当你盯着眼前的1080P高清屏幕时,可能不会想到这看似平滑的画面背后藏着怎样的精密运作。实际上,屏幕显示的本质是用时间换空间的艺术。每个静止的画面都由数百万个像素点组成,而动态效果则…

作者头像 李华
网站建设 2026/5/11 20:42:00

Chiplet芯粒技术:从SoC到异构集成的设计范式演进

1. 从SoC到Chiplet:一场必然的范式转移在半导体行业摸爬滚打了十几年,我亲眼见证了“系统级芯片”从一个令人兴奋的前沿概念,变成了如今手机、平板、路由器里随处可见的“标配”。SoC的成功,本质上是摩尔定律黄金时代的产物&#…

作者头像 李华
网站建设 2026/5/11 20:41:27

macOS Big Sur下雷蛇雷云2.0驱动失效的深层解析与kext手动加载指南

1. 雷蛇雷云2.0驱动失效现象解析 最近在macOS Big Sur系统上尝试使用雷蛇鼠标时,发现雷云2.0驱动完全无法正常工作。具体表现为驱动程序始终显示"设备未连接",即使鼠标已经正确插入USB接口。这种情况在升级到Big Sur系统后特别常见&#xff0c…

作者头像 李华
网站建设 2026/5/11 20:40:33

LTspice进阶应用:NMOS跨导与输出电阻的仿真分析

1. 从I-V特性到小信号参数:NMOS仿真的进阶之路 刚开始接触LTspice时,大多数工程师都是从绘制I-V特性曲线入手的。就像原始文章里演示的那样,我们通过DC扫描分析,能轻松得到NMOS在不同栅极电压下的漏极电流变化曲线。但你知道吗&am…

作者头像 李华
网站建设 2026/5/11 20:40:33

SpringBoot的二手图书交易平台毕设

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot与Vue框架的二手图书交易平台以解决当前图书流通领域存在的资源浪费问题和信息不对称现象。随着数字阅读技术的普及纸质图书的…

作者头像 李华