news 2026/4/23 18:21:23

ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案

ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案

【免费下载链接】ArchiveBox🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more...项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox

在信息爆炸的互联网时代,重要网页随时可能消失或改变。ArchiveBox作为开源自托管网页归档工具,让您能够永久保存网页内容,确保珍贵信息不会丢失。无论您是个人用户还是企业组织,ArchiveBox都能为您提供可靠、灵活的网页存档解决方案。

什么是ArchiveBox?

ArchiveBox是一个自托管应用程序,能够以多种格式保存网页内容。它旨在让您的数据立即可用,并以其他程序可直接读取的格式保存。作为输出,它保存标准的HTML、PNG、PDF、TXT、JSON、WARC、SQLite等格式,保证未来几十年都能读取。

核心优势

  • 🆓完全免费开源:自主托管,掌控自己的数据并保护隐私
  • 🛠️强大的CLI工具:支持模块化依赖和多种存储方案
  • 📚全面的文档支持:活跃开发和丰富社区生态

ArchiveBox能保存什么内容?

ArchiveBox为每个URL创建快照文件夹,并以普通文件形式保存在文件夹内(如HTML、PDF、PNG、JSON等)。

支持的内容类型

  • 🌐任何网站:原始HTML+CSS+JS、SingleFile HTML、截图PNG、PDF、WARC、标题、文章文本、favicon、headers等
  • 🎥社交媒体/新闻:帖子内容TXT、评论、标题、作者、图片等
  • 🎬YouTube/SoundCloud等:MP3/MP4、字幕、元数据、缩略图等
  • 💾Github/Gitlab等链接:GIT源代码克隆、README、图片等

快速安装指南

🐳 Docker Compose安装(推荐)

mkdir -p ~/archivebox/data && cd ~/archivebox curl -fsSL 'https://docker-compose.archivebox.io' > docker-compose.yml docker compose run archivebox init --setup docker compose up

📦 Pip安装(适用于macOS/Linux)

pip3 install --upgrade archivebox yt-dlp playwright mkdir -p ~/archivebox/data && cd ~/archivebox/data archivebox init --setup archivebox server 0.0.0.0:8000

核心功能详解

多格式存档支持

ArchiveBox使用行业标准工具如Chrome、wget、yt-dlp等,并将数据存储在普通文件和文件夹中。

存档格式包括

  • index.htmlindex.json:包含元数据和详情的HTML和JSON索引文件
  • singlefile.html:使用SingleFile通过无头Chrome渲染的HTML快照
  • output.pdf:使用无头Chrome打印的网站PDF
  • screenshot.png:使用无头Chrome的1440x900网站截图
  • article.html/json:使用Readability和Mercury的文章文本提取

灵活的输入方式

您可以通过多种方式向ArchiveBox提供URL:

输入源

  • 🌐浏览器扩展:实时保存Chrome/Chromium/Firefox浏览历史或选定页面
  • 📄文本文件导入:支持从RSS、JSON、CSV、TXT、SQL、HTML、Markdown等文件手动导入URL
  • 📚浏览器历史记录:从手动导出的浏览器历史记录(Netscape格式)
  • 🔗书签服务:Pocket、Pinboard、Instapaper等

智能内容提取

ArchiveBox能够检测页面中出现的任何内容并将其提取到文件夹中。它使用所有可用的方法开箱即用,但您可以根据需要禁用提取器并微调配置。

实际应用场景

📰 新闻工作者

在研究过程中进行爬取、保存引用页面、事实核查和审查

⚖️ 法律工作者

收集和保存证据、检测变更、标记和审查

🔬 研究人员

分析社交媒体趋势、获取LLM训练数据、爬取管道

👤 个人用户

保存书签、保存投资组合内容、遗产/回忆录存档

配置与定制

ArchiveBox可以通过环境变量、使用archivebox configCLI或编辑./ArchiveBox.conf进行配置。

常用配置选项

archivebox config --set TIMEOUT=120 # 在较慢网络上增加更多秒数 archivebox config --set CHECK_SSL_VALIDITY=False # 允许保存具有错误SSL的URL archivebox config --set SAVE_ARCHIVEDOTORG=False # 禁用Archive.org保存

数据管理与导出

静态存档导出

您可以使用archivebox list将索引导出为静态HTML(这样您就可以在没有ArchiveBox服务器的情况下查看它)。

archivebox list --html --with-headers > index.html archivebox list --json --with-headers > index.json

安全与隐私考量

私有内容归档

如果您要导入包含私有内容或包含不希望公开的机密令牌的URL(例如Google文档、付费内容、未列出视频等),您可能需要禁用某些提取器方法,以避免将这些内容泄露给第三方API或公众

安全配置

archivebox config --set SAVE_ARCHIVEDOTORG=False archivebox config --set PUBLIC_INDEX=False archivebox config --set PUBLIC_SNAPSHOTS=False

企业级应用

ArchiveBox虽然是免费自托管的,但也为NGO、政府和其他组织提供支持、安全审查和自定义集成,帮助专业运行ArchiveBox。

升级与维护

ArchiveBox设计为具有确定性升级,确保您的存档数据在版本更新过程中保持完整性和可访问性。

结语

ArchiveBox作为开源自托管网页归档工具,为您提供了完整、可靠的网页保存解决方案。无论您是希望保存个人书签、研究资料,还是需要为企业保存重要网页证据,ArchiveBox都能满足您的需求。

开始使用ArchiveBox,让您关心的互联网部分自动以耐用、易于访问的格式保存数十年!

【免费下载链接】ArchiveBox🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more...项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:00:05

一次处理20张照片!Unet批量转换效率实测

一次处理20张照片!Unet批量转换效率实测 1. 引言:人像卡通化需求与技术背景 随着AI图像生成技术的快速发展,人像风格迁移已成为内容创作、社交娱乐和数字艺术中的热门应用。将真实人物照片转换为卡通风格,不仅可用于个性化头像制…

作者头像 李华
网站建设 2026/4/23 15:23:24

智能扫描仪应用指南:法律行业合同管理的自动化

智能扫描仪应用指南:法律行业合同管理的自动化 1. 引言 在法律行业中,合同管理是日常工作中最基础也最关键的环节之一。传统纸质合同的归档、检索和流转不仅效率低下,还容易因人为疏忽导致版本混乱或文件丢失。随着数字化办公的发展&#x…

作者头像 李华
网站建设 2026/4/23 17:13:21

Open Interpreter网页开发:Flask/Django框架代码生成教程

Open Interpreter网页开发:Flask/Django框架代码生成教程 1. 引言 1.1 技术背景与应用场景 随着大语言模型(LLM)在代码生成领域的持续突破,开发者对“自然语言驱动编程”的需求日益增长。Open Interpreter 作为一款开源本地代码…

作者头像 李华
网站建设 2026/4/23 9:46:27

零基础玩转IndexTTS-2:没GPU也能用的AI语音合成方案

零基础玩转IndexTTS-2:没GPU也能用的AI语音合成方案 你是不是也遇到过这样的情况:想听一本电子书,但眼睛看久了累得不行;或者想找个人声朗读文章,却发现下载的语音机械又生硬?尤其是对退休教师、中老年用户…

作者头像 李华
网站建设 2026/4/23 9:48:25

电视盒子变身高性能Linux服务器:闲置设备完美重生指南

电视盒子变身高性能Linux服务器:闲置设备完美重生指南 【免费下载链接】amlogic-s9xxx-armbian amlogic-s9xxx-armbian: 该项目提供了为Amlogic、Rockchip和Allwinner盒子构建的Armbian系统镜像,支持多种设备,允许用户将安卓TV系统更换为功能…

作者头像 李华