Git-RSCLIP遥感图像分类5分钟上手教程：零基础也能玩转卫星图识别-深圳市維司達科技有限公司

Git-RSCLIP遥感图像分类5分钟上手教程：零基础也能玩转卫星图识别

1. 你能学会什么？——5分钟掌握遥感图像智能识别

你是不是也好奇：那些卫星拍下来的黑白或彩色图片，怎么一眼就认出哪是农田、哪是机场、哪是森林？以前这得靠专业遥感工程师手动标注，耗时又费力。现在，一个叫 Git-RSCLIP 的模型，让这件事变得像发微信一样简单。

这篇教程专为完全没接触过遥感、没写过Python、甚至没装过CUDA的零基础用户设计。你不需要下载模型、不用配环境、不用写训练脚本——镜像已预装好全部依赖，启动即用。从打开网页到完成第一张卫星图分类，全程不超过5分钟。

你将亲手完成两件事：

给一张真实卫星图打上“这是河流”“这是住宅区”“这是机场”的标签，系统自动告诉你哪个最可能；
输入一段文字描述，比如“一片被道路切割的农田”，系统立刻找出最匹配的遥感图像。

整个过程不碰命令行（除非你想重启服务），不调参数，不看报错日志。就像用手机修图App一样自然。下面我们就直接开始。

2. 模型到底是什么？一句话说清它能干什么

Git-RSCLIP 不是传统意义上的“分类器”，它更像一位学过千万张遥感图的“视觉翻译官”。

它由北京航空航天大学团队研发，底层基于 SigLIP 架构——一种比 CLIP 更鲁棒、更适合图文对齐任务的模型结构。关键在于，它不是在普通照片上训练的，而是在Git-10M 数据集上“读万卷图”：整整1000万对遥感图像+对应文本描述，覆盖城市、农田、森林、水域、机场、港口、工业区等真实地物场景。

所以它懂遥感语言：知道“高分辨率”“多光谱”“条带状纹理”“规则几何轮廓”这些词背后的真实画面，而不是靠颜色或边缘猜。

它的两个核心能力，都建立在这个“懂图又懂文”的基础上：

零样本分类（Zero-shot Classification）：你给它一张新图，再列几个候选标签（比如“机场”“农田”“森林”），它不经过任何训练，就能算出每个标签和这张图的匹配程度，并按置信度排序。不需要准备训练数据，也不需要微调模型。
图文相似度检索（Image-Text Retrieval）：你上传一张图，输入一句描述（如“有环形跑道和停机坪的区域”），它直接返回一个0～1之间的分数，告诉你这句话和这张图有多像。

这两个功能，都不需要你懂深度学习，只需要会写中文或英文短句，会点鼠标上传文件。

3. 快速部署：三步启动，无需安装任何东西

这个镜像最大的优势就是“开箱即用”。所有模型权重（1.3GB）、推理框架（PyTorch + CUDA）、Web界面（Gradio）都已打包好，部署后自动加载，连GPU驱动都帮你配好了。

3.1 获取访问地址

镜像启动成功后，你会在CSDN星图控制台看到类似这样的Jupyter地址：
https://gpu-abc123-8888.web.gpu.csdn.net/

请把端口号8888替换为7860，得到最终访问地址：
https://gpu-abc123-7860.web.gpu.csdn.net/

复制粘贴进浏览器，回车——你将看到一个干净的双功能界面，左侧是“遥感图像分类”，右侧是“图文相似度”。

小提示：如果页面打不开，请先确认镜像状态为“运行中”，再检查URL中的实例ID是否正确，端口是否已改为7860。

3.2 界面初识：两个功能，一目了然

整个界面只有两个大模块，没有多余按钮，没有设置菜单：

左半区：遥感图像分类
- “上传图像”按钮：支持 JPG、PNG 格式，建议尺寸在 256×256 左右（太大不影响使用，但会稍慢；太小可能丢失细节）
- “候选标签”文本框：每行写一个英文描述，越具体越好。系统已预填了6个常用标签供你直接点击试用
- “开始分类”按钮：点击后，后台自动推理，几秒内返回结果
右半区：图文相似度
- 同样上传一张图
- 在下方输入任意中文或英文描述（如“被水体包围的岛屿”“布满太阳能板的屋顶”）
- 点击“计算相似度”，立刻显示一个0～1之间的数字，越接近1表示越匹配

你不需要理解“嵌入向量”“余弦相似度”这些词。你只需要知道：数字高 = 描述和图很搭；数字低 = 它觉得不太像。

4. 动手实操：分类一张真实卫星图（附详细步骤）

我们用一张公开的遥感图来演示。你可以用自己手头的图，也可以临时下载一张（比如搜索“Sentinel-2 urban area”找一张城市区域截图）。

4.1 准备一张图

随便找一张包含明显地物的遥感图即可。例如：

一张俯拍的机场全景（能看到跑道、停机坪、航站楼）
一张农田与道路交错的区域（方格状田块+线性道路）
一张河流穿城而过的影像（蓝绿色水体+灰白色建筑群）

保存为 JPG 或 PNG 格式，文件名无所谓，大小建议在 1MB 以内（不影响精度，只影响上传速度）。

4.2 填写候选标签（关键！用好英文描述）

这是影响效果最关键的一步。别写“机场”“农田”这种单字词，Git-RSCLIP 是靠“句子级语义”理解的。参考以下写法：

推荐写法（效果好）：

a remote sensing image of airport with runway and terminal a remote sensing image of farmland divided by roads a remote sensing image of river flowing through city

效果较差的写法：

airport farmland river

为什么？因为模型没见过孤立的“airport”这个词，但它见过上百万次“a remote sensing image of airport...”这样的完整描述。它学的是“图像-句子”的整体对齐，不是“图像-单词”的映射。

你可以直接使用界面预填的示例，也可以在后面加自己的描述。比如预填里有a remote sensing image of forest，你可以改成a remote sensing image of dense evergreen forest in mountainous area，只要意思清楚、语法通顺就行。

4.3 查看结果：不只是“是/否”，而是“有多像”

点击“开始分类”后，界面会显示一个横向排行榜，从高到低列出你输入的每个标签，以及对应的置信度（0～1之间的小数）。

假设你上传了一张机场图，输入了以下5个标签：

a remote sensing image of airport with runway and terminal a remote sensing image of residential buildings a remote sensing image of forest a remote sensing image of farmland a remote sensing image of river

你可能会看到这样的结果：

标签	置信度
a remote sensing image of airport with runway and terminal	0.824
a remote sensing image of residential buildings	0.317
a remote sensing image of river	0.289
a remote sensing image of farmland	0.192
a remote sensing image of forest	0.103

注意：这不是概率，也不是准确率，而是模型认为“这句话描述的画面”和“这张图”的语义相似程度。0.824 表示它非常确信这张图符合“带跑道和航站楼的机场”这一描述。

你可以把结果截图保存，或者复制置信度数值做进一步分析。

5. 进阶玩法：用文字“搜索”遥感图像

这个功能特别适合做初步筛查。比如你手头有100张不同时间拍摄的同一区域图像，想快速找出“哪几张显示了新建的工业园区”，不用一张张看，直接用文字描述去“搜”。

5.1 文字描述怎么写才准？

原则和分类一样：具体 > 抽象，场景化 > 名词化。

好例子：

“一片被新建混凝土道路分割的工业厂房区，屋顶呈蓝色反光”
“海岸线附近新增的方形集装箱堆场，紧邻铁路线”
“城市边缘出现的大片未开发空地，呈规则矩形，周围无建筑”

弱效果例子：

“工业园区”
“新建筑”
“空地”

试试看：上传一张农田图，输入“a remote sensing image of irrigated farmland with circular patterns”，再上传一张城市图，输入“a remote sensing image of high-rise buildings with grid-like street network”。你会发现，相似度分数差异非常明显。

5.2 结果解读：一个数字背后的含义

系统返回的相似度是一个浮点数，范围严格在 0～1 之间：

0.7 以上：高度匹配。基本可以认定描述与图像内容一致。
0.4～0.7：中等匹配。可能存在部分特征吻合，但整体不够典型。
0.4 以下：低匹配。大概率不相关，或描述过于模糊。

这个分数不是绝对阈值，而是相对参考。你可以用同一张图，输入不同描述，对比分数高低，来验证描述的有效性。

6. 实用技巧与避坑指南（来自真实测试）

在几十次实测中，我们总结出几条真正管用的经验，不是理论，是踩过坑后写的：

6.1 图像质量比尺寸更重要

模型对图像尺寸不敏感（自动缩放至256×256），但对清晰度和对比度很敏感。

推荐：原始遥感图、Google Earth 截图、Sentinel-2 Level-2A 产品
注意：严重雾化、过曝、欠曝、大量云层遮挡的图，匹配度会明显下降
避免：手机拍的屏幕图（有摩尔纹）、极度压缩的网络图（块状失真）

6.2 英文描述不必完美，但要“像人话”

你不需要语法满分。模型能理解：

“a sat image of factory with smoke”（sat image 是 satellite image 的常见简写）
“buildings near water, maybe port”（用逗号和maybe表达不确定性）
“not forest, not city, looks like desert”（用否定句辅助定位）

但避免纯关键词堆砌，比如：factory smoke water port building—— 这会被当作一个无意义字符串处理。

6.3 服务异常？三行命令全搞定

虽然镜像自带自启和守护，但偶发情况仍可能发生。记住这三条命令，比查文档快十倍：

# 查看当前服务是否在跑（正常应显示 RUNNING） supervisorctl status # 一键重启（90%问题靠它解决） supervisorctl restart git-rsclip # 查看最近10行日志（定位具体错误） tail -10 /root/workspace/git-rsclip.log

所有命令都在终端里执行，无需进入容器，无需sudo权限。