MediaCrawler：基于Playwright的多平台社交媒体数据采集架构实践-深圳市維司達科技有限公司

MediaCrawler：基于Playwright的多平台社交媒体数据采集架构实践

【免费下载链接】MediaCrawler-new项目地址: https://gitcode.com/GitHub_Trending/me/MediaCrawler-new

在当今数据驱动的技术生态中，社交媒体数据采集已成为市场分析、内容运营和学术研究的关键技术需求。MediaCrawler作为一款开源的多平台数据采集工具，通过创新的浏览器自动化架构，为开发者提供了高效、稳定的跨平台数据采集解决方案。本文将从技术架构、核心模块、配置实践和性能优化等方面，深入解析MediaCrawler的设计理念与实现细节。

技术架构解析：浏览器自动化与API调用的完美结合

MediaCrawler采用"浏览器自动化+API调用"的混合架构，巧妙规避了传统爬虫逆向加密的技术门槛。核心架构基于Playwright框架，通过保持登录会话上下文，直接调用平台官方API获取结构化数据。

![系统架构图](https://raw.gitcode.com/GitHub_Trending/me/MediaCrawler-new/raw/387f08701788e8e626b688ecf6ef50f669a80b75/static/images/代理IP 流程图.drawio.png?utm_source=gitcode_repo_files)

图1：MediaCrawler代理IP管理架构，展示了IP代理池的动态获取、验证和调用流程

核心架构组件

浏览器自动化层(media_platform/*/login.py)
- 基于Playwright实现浏览器自动化
- 支持二维码、手机号、Cookie三种登录方式
- 使用stealth.min.js隐藏自动化特征
API客户端层(media_platform/*/client.py)
- 封装各平台API调用逻辑
- 处理请求签名和参数加密
- 支持异步并发请求
数据存储层(store/*/)
- 支持JSON、CSV、数据库三种存储格式
- 采用异步I/O提升写入性能
- 模块化设计便于扩展
代理管理模块(proxy/proxy_ip_pool.py)
- 动态IP代理池管理
- 自动验证代理可用性
- 支持多代理源接入

核心模块配置指南

基础配置设置

在config/base_config.py中配置核心参数：

# 平台选择配置 PLATFORM = "xhs" # 支持: xhs(小红书), dy(抖音), ks(快手), bili(B站), wb(微博) KEYWORDS = "python,golang,数据分析" LOGIN_TYPE = "qrcode" # qrcode | phone | cookie CRAWLER_TYPE = "search" # search | detail | creator # 代理配置 ENABLE_IP_PROXY = True IP_PROXY_POOL_COUNT = 5 # 性能配置 CRAWLER_MAX_NOTES_COUNT = 100 MAX_CONCURRENCY_NUM = 4 HEADLESS = True # 无头模式

代理IP池配置实践

MediaCrawler的代理系统支持多种代理协议和认证方式：

图2：代理IP服务配置界面，支持HTTPS、SOCKS5协议和账密认证模式

代理配置参数说明：

参数	类型	说明	示例值
`ENABLE_IP_PROXY`	bool	启用IP代理	`True`
`IP_PROXY_POOL_COUNT`	int	代理池大小	`5`
`protocol`	str	代理协议	`https`
`validation_url`	str	IP验证地址	`https://httpbin.org/ip`

数据存储配置

在config/db_config.py中配置数据库存储：

# MySQL数据库配置示例 DB_CONFIG = { "connections": { "default": { "engine": "tortoise.backends.mysql", "credentials": { "host": "localhost", "port": 3306, "user": "media_user", "password": "secure_password", "database": "media_crawler", "charset": "utf8mb4" } } }, "apps": { "models": { "models": ["store.xhs.xhs_store_db_types", "aerich.models"], "default_connection": "default", } } }

API接口调用示例

小红书数据采集接口

# media_platform/xhs/client.py 核心API方法 class XHSClient: async def get_note_by_keyword( self, keyword: str, page: int = 1, page_size: int = 20, sort: SearchSortType = SearchSortType.GENERAL ) -> Dict: """关键词搜索API""" params = { "keyword": keyword, "page": page, "page_size": page_size, "sort": sort.value } return await self.get("/api/sns/web/v1/search/notes", params=params) async def get_note_comments( self, note_id: str, cursor: str = "" ) -> Dict: """获取笔记评论API""" params = {"note_id": note_id} if cursor: params["cursor"] = cursor return await self.get("/api/sns/web/v2/comment/page", params=params)

异步并发采集实现

# media_platform/xhs/core.py 并发采集逻辑 async def batch_get_note_comments(self, note_list: List[str]): """批量获取笔记评论""" semaphore = asyncio.Semaphore(self.max_concurrency) tasks = [ self.get_comments(note_id, semaphore) for note_id in note_list ] results = await asyncio.gather(*tasks, return_exceptions=True) # 错误处理和重试机制 for i, result in enumerate(results): if isinstance(result, Exception): utils.logger.error(f"Failed to get comments for note {note_list[i]}: {result}") # 实现指数退避重试 await self.retry_with_backoff(note_list[i])

反爬策略与性能优化

三级防护体系

动态请求间隔(tools/time_util.py)

async def random_delay(min_seconds: float = 1.0, max_seconds: float = 3.0): """随机延迟函数，模拟人类操作间隔""" delay = random.uniform(min_seconds, max_seconds) await asyncio.sleep(delay)

浏览器指纹模拟(libs/stealth.min.js)
- 隐藏WebDriver特征
- 随机User-Agent生成
- Canvas指纹随机化

IP轮换机制(proxy/proxy_ip_pool.py)

class ProxyIpPool: async def get_proxy(self) -> IpInfoModel: """获取可用代理IP""" if not self.proxy_list: await self.load_proxies() proxy = random.choice(self.proxy_list) if await self.is_valid_proxy(proxy): return proxy # 自动剔除无效IP并重新获取 self.proxy_list.remove(proxy) return await self.get_proxy()

性能优化建议

并发控制策略

# 根据网络环境调整并发数 if network_latency > 500: # 高延迟网络 MAX_CONCURRENCY_NUM = 2 elif network_latency > 200: # 中等延迟 MAX_CONCURRENCY_NUM = 4 else: # 低延迟网络 MAX_CONCURRENCY_NUM = 8

内存优化配置

# 分批处理大数据集 BATCH_SIZE = 100 async def process_large_dataset(self, data_list: List): for i in range(0, len(data_list), BATCH_SIZE): batch = data_list[i:i + BATCH_SIZE] await self.process_batch(batch) # 释放内存 del batch gc.collect()

部署与监控最佳实践

Docker容器化部署

# Dockerfile示例 FROM python:3.9-slim WORKDIR /app # 安装系统依赖 RUN apt-get update && apt-get install -y \ wget \ gnupg \ && wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add - \ && echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list \ && apt-get update && apt-get install -y google-chrome-stable # 复制项目文件 COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 安装Playwright浏览器 RUN playwright install chromium COPY . . # 启动脚本 CMD ["python", "main.py", "--platform", "xhs", "--type", "search"]

监控指标配置

在tools/utils.py中实现监控装饰器：

import time import functools from prometheus_client import Counter, Histogram # 定义监控指标 REQUEST_COUNT = Counter('crawler_requests_total', 'Total requests') REQUEST_LATENCY = Histogram('crawler_request_latency_seconds', 'Request latency') def monitor_request(func): """请求监控装饰器""" @functools.wraps(func) async def wrapper(*args, **kwargs): start_time = time.time() REQUEST_COUNT.inc() try: result = await func(*args, **kwargs) return result except Exception as e: # 记录错误指标 ERROR_COUNT.labels(type(e).__name__).inc() raise finally: latency = time.time() - start_time REQUEST_LATENCY.observe(latency) return wrapper

技术注意事项与合规建议

合规使用指南

频率限制策略

# 实现请求速率限制 class RateLimiter: def __init__(self, max_calls: int, period: float): self.max_calls = max_calls self.period = period self.calls = [] async def acquire(self): now = time.time() # 清理过期记录 self.calls = [call for call in self.calls if now - call < self.period] if len(self.calls) >= self.max_calls: sleep_time = self.period - (now - self.calls[0]) await asyncio.sleep(sleep_time) self.calls.append(now)

数据脱敏处理

# tools/utils.py 中的脱敏函数 def anonymize_user_data(data: Dict) -> Dict: """用户数据脱敏""" if 'user_id' in data: data['user_id'] = hashlib.sha256(data['user_id'].encode()).hexdigest()[:16] if 'phone' in data: data['phone'] = re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', data['phone']) return data

错误处理与重试机制

from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type @retry( stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10), retry=retry_if_exception_type((ConnectionError, TimeoutError)) ) async def fetch_with_retry(self, url: str, **kwargs): """带指数退避的重试机制""" async with httpx.AsyncClient(timeout=30.0) as client: response = await client.get(url, **kwargs) response.raise_for_status() return response.json()