小白必看：ResNet18物体识别入门指南，没GPU也能学-深圳市維司達科技有限公司

小白必看：ResNet18物体识别入门指南，没GPU也能学

引言：为什么选择ResNet18入门物体识别？

当你第一次接触AI物体识别时，可能会被各种复杂的模型和代码吓到。作为转行学习AI的文科生，我完全理解你的困惑——下载了GitHub代码却遇到CUDA报错，面对命令行界面手足无措。这就是为什么我推荐从ResNet18开始：它就像学习骑自行车时的辅助轮，简单但足够让你体验AI识别的乐趣。

ResNet18是深度学习领域最经典的图像识别模型之一，只有18层网络结构，比动辄上百层的大模型轻量很多。最关键的是，它可以在普通笔记本电脑上运行，不需要昂贵的GPU显卡。想象一下，这就像一个精简版的翻译官，虽然不能像专业翻译那样处理复杂文献，但足以帮你认出路标、区分猫狗、识别日常物品。

通过本指南，你将学会： - 用Python几行代码加载预训练好的ResNet18模型 - 处理你自己的图片进行物体识别 - 理解常见报错的原因和解决方法 - 在没有GPU的情况下优化识别速度

1. 环境准备：零基础搭建PythonAI环境

1.1 安装Python和必要库

即使完全没有编程经验，跟着这些步骤也能完成环境搭建：

下载Python安装包（推荐3.8版本）：
访问Python官网
点击"Download Python 3.8.x"
运行安装程序时务必勾选"Add Python to PATH"
安装完成后，打开命令提示符（Windows搜索cmd）或终端（Mac/Linux），输入以下命令安装必要库：

pip install torch torchvision pillow numpy

⚠️ 注意
如果下载速度慢，可以添加国内镜像源：pip install torch torchvision pillow numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

1.2 验证安装是否成功

创建一个test.py文件，输入以下代码：

import torch print("PyTorch版本:", torch.__version__) print("CPU可用:", torch.cuda.is_available()) # 应该返回False，因为我们不用GPU

运行后如果看到版本号且没有报错，说明环境配置正确。

2. 快速上手：用ResNet18识别图片中的物体

2.1 下载预训练模型

ResNet18的美妙之处在于PyTorch已经提供了预训练好的模型，省去了训练过程。创建一个新的Python文件resnet_demo.py，输入以下代码：

from torchvision import models, transforms from PIL import Image import torch # 加载预训练模型（自动下载约45MB） model = models.resnet18(pretrained=True) model.eval() # 设置为评估模式 # 定义图像预处理流程 preprocess = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225] ) ]) # 加载类别标签（1000种常见物体） with open('imagenet_classes.txt', 'w') as f: f.write('\n'.join(models.ResNet18_Weights.DEFAULT.meta["categories"]))

运行后会下载模型权重文件，同时生成imagenet_classes.txt标签文件。

2.2 测试你的第一张图片

准备一张你想识别的图片（比如狗狗照片），命名为test.jpg，然后添加以下代码：

# 加载并预处理图像 img = Image.open("test.jpg") img_tensor = preprocess(img) img_tensor = img_tensor.unsqueeze(0) # 添加批次维度 # 进行预测 with torch.no_grad(): outputs = model(img_tensor) # 读取类别标签 with open('imagenet_classes.txt') as f: labels = [line.strip() for line in f.readlines()] # 获取预测结果 _, index = torch.max(outputs, 1) percentage = torch.nn.functional.softmax(outputs, dim=1)[0] * 100 print(f"识别结果: {labels[index[0]]}") print(f"置信度: {percentage[index[0]].item():.2f}%")

运行后你会看到类似这样的输出：

识别结果: golden retriever 置信度: 92.34%

3. 常见问题与解决方案

3.1 遇到CUDA相关报错怎么办？

即使代码中没有主动使用GPU，某些PyTorch版本仍会尝试调用CUDA。解决方法是在加载模型后添加：

model = models.resnet18(pretrained=True) model = model.to('cpu') # 明确指定使用CPU

3.2 识别结果不准确怎么改进？

ResNet18在ImageNet数据集上预训练，只能识别1000种常见类别。如果识别不准：

确保拍摄角度端正，物体占据图片主要部分
尝试不同的裁剪区域：python # 修改CenterCrop参数 transforms.CenterCrop(300) # 增大裁剪区域
对于自定义物体，可以考虑微调模型（需要少量标注数据）

3.3 运行速度太慢如何优化？

在CPU上运行大型模型确实会较慢，可以尝试：

缩小输入图像尺寸：python transforms.Resize(128) # 原为256
使用更轻量模型：python model = models.mobilenet_v2(pretrained=True)
启用多线程：python torch.set_num_threads(4) # 根据CPU核心数调整

4. 扩展应用：实时摄像头物体识别

想用笔记本摄像头实现实时识别？只需添加OpenCV库：

pip install opencv-python

然后创建camera_demo.py：

import cv2 from PIL import Image import numpy as np # ... 之前的模型加载代码 ... cap = cv2.VideoCapture(0) # 0表示默认摄像头 while True: ret, frame = cap.read() if not ret: break # 转换颜色空间并预处理 img = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)) img_tensor = preprocess(img) img_tensor = img_tensor.unsqueeze(0) # 预测（同上） with torch.no_grad(): outputs = model(img_tensor) _, pred = torch.max(outputs, 1) label = labels[pred[0]] # 显示结果 cv2.putText(frame, label, (10,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,255,0), 2) cv2.imshow('ResNet18实时识别', frame) if cv2.waitKey(1) == ord('q'): break cap.release() cv2.destroyAllWindows()