视觉语言模型在扫描路径语义相似性分析中的应用-深圳市維司達科技有限公司

1. 视觉语言模型与扫描路径相似性研究概述

眼动追踪技术长期以来为我们提供了精确的"人们看向何处"的数据，但解读"人们看到了什么"始终是一个挑战。传统扫描路径(scanpath)相似性度量方法如MultiMatch、动态时间规整(DTW)等，主要评估注视点的空间和时间对齐程度，却忽视了被注视图像区域之间的语义等价性。这种局限性在实际应用中尤为明显——两位观察者可能注视概念相似但位置不同的物体(如人脸、文字、车辆)，导致空间相似性得分很低；反之，相似的注视路径可能落在语义完全不同的物体上，却获得很高的几何相似性评分。

视觉语言模型(Vision-Language Models, VLMs)的突破性发展为解决这一问题提供了全新思路。作为多模态AI的核心技术，VLMs能够将视觉信息与自然语言处理相结合，实现图像内容的语义理解与描述生成。其工作原理基于深度学习框架下的跨模态对齐，通过大规模预训练学习视觉特征与语言概念之间的映射关系。具体到扫描路径分析，VLMs可以将每个注视点转换为简洁的文本描述，进而将整个扫描路径表示为语义快照的序列。这种转换使得我们能够利用成熟的NLP相似性指标(如BERTScore、ROUGE、BLEU等)在语义层面比较注视行为，而不仅仅是空间坐标的匹配。

2. 语义扫描路径相似性框架设计

2.1 整体架构与工作流程

我们提出的语义扫描路径相似性框架包含三个核心阶段：

注视点到文本的转换：对于刺激图像I和扫描路径S={(x_t,y_t,d_t)}，采用两种视觉上下文编码策略：
- 基于局部图像块的方法：以注视点为中心裁剪不同尺寸(96×96、192×192、256×256像素)的方形区域
- 基于标记的方法：在全图上叠加红色圆形标记(半径100像素)指示注视位置
扫描路径语义汇总：将单个注视点描述序列{δ_t}聚合成连贯的段落τ(S)，使用特定提示模板引导VLM生成包含时序信息的整体摘要
相似性度量与分析：
- 语义相似度：应用BERTScore、ROUGE-L、BLEU-4、BM25等NLP指标比较文本摘要
- 空间相似度：计算ScanMatch、DTW、MultiMatch等传统几何指标
- 相关性分析：通过Spearman秩相关系数评估语义与空间度量的关系

2.2 注视点编码的关键技术细节

在局部图像块编码中，我们系统评估了不同尺寸的影响。较小尺寸(96px)近似中央凹视野但可能缺乏物体上下文；中等尺寸(192px)平衡局部细节与上下文；较大尺寸(256px)包含更多周边信息但可能引入无关内容。技术实现上，我们使用Python的Pillow库进行图像裁剪：

from PIL import Image def extract_patch(img_path, x, y, size=192): img = Image.open(img_path) width, height = img.size x_px, y_px = int(x*width), int(y*height) left = max(0, x_px - size//2) upper = max(0, y_px - size//2) right = min(width, left + size) lower = min(height, upper + size) return img.crop((left, upper, right, lower))

对于标记编码方法，我们使用OpenCV在原始图像上叠加注视标记：

import cv2 import numpy as np def mark_fixation(img_path, x, y, radius=100): img = cv2.imread(img_path) x_px, y_px = int(x*img.shape[1]), int(y*img.shape[0]) # 绘制红色标记圆 cv2.circle(img, (x_px, y_px), radius, (0,0,255), 3) cv2.circle(img, (x_px, y_px), 5, (0,0,255), -1) return img

2.3 VLM提示工程优化

为确保生成的描述一致且相关，我们设计了精细的提示模板。对于单个注视点描述，提示明确要求：

"用1-2句话描述此图像块中看到的内容。重点关注任何物体、人脸、文字或显著视觉内容。如果图像块模糊或仅显示纹理/背景，请描述主要颜色、纹理或可见的部分物体。"

对于扫描路径汇总，提示强调时序理解和认知策略推断：

"你正在分析人类观察者观看图像时的注视行为。以下是他们按时间顺序注视的图像区域描述列表：[δ1;δ2;...;δT]。根据这些注视描述和完整图像，撰写一个连贯的段落，总结该观察者关注的内容及其可能使用的认知策略。"

3. 实验设计与结果分析

3.1 数据集与评估设置

我们在COCOFreeView数据集上开展实验，该数据集包含在MS-COCO图像上的自由观看眼动数据。为确保结果可靠性，我们固定使用100张图像的验证子集，每张图像包含5条扫描路径，共产生1000个图像内扫描路径对进行比较。

实验对比四种视觉编码条件：

96×96像素局部块
192×192像素局部块
256×256像素局部块
全图标记(半径100px)

技术实现上，我们采用Qwen3-VL-8B-Instruct作为基础VLM，在RTX4000显卡上使用vLLM进行推理。生成温度设置为：注视点描述0.2(降低随机性)，扫描路径汇总0.3(提高流畅性)。

3.2 语义与空间相似性的相关性分析

实验结果揭示了几个关键发现：

中度非冗余相关性：BERTScore与空间指标的Spearman相关系数在0.1-0.3之间，表明语义相似性既非完全独立，也非几何对齐的简单重述。这种部分耦合但非冗余的关系证实了语义分析作为补充维度的价值。
视觉上下文的影响：
- 小尺寸块(96px)显示出较低且不稳定的相关性，反映有限上下文导致的描述模糊性
- 中等尺寸(192px)相关性提高，表明更好的物体识别能力
- 大尺寸(256px)产生最稳定的语义表征，对应图像约2%的面积
标记方法的场景泄漏效应：全图标记条件显示出更高的语义-空间相关性，表明VLM可能利用全局场景线索推断局部内容，降低了语义表征的独立性。

3.3 不同NLP指标的表现对比

四种语义相似性指标展现出明显差异：

BERTScore：表现最稳定，利用上下文嵌入捕捉深层语义等价
ROUGE-L/BLEU-4：基于表面形式匹配，相关性较弱
BM25：TF-IDF加权词频统计，表现介于中间

这表明嵌入-based方法更适合扫描路径的语义比较，而传统NLP指标可作为辅助诊断工具。

4. 实际应用与注意事项

4.1 典型应用场景

用户体验研究：识别不同用户群体在界面浏览时的语义关注差异，超越简单的热点图分析
医学图像解读：比较专家与新手的扫描路径语义模式，发现专业认知策略
广告效果评估：分析消费者对营销素材的语义理解路径，优化视觉设计
人机交互优化：基于语义注视模式调整界面元素的呈现方式

4.2 实施建议与注意事项

视觉上下文选择：
- 优先考虑192-256px的局部块，平衡物体识别与上下文控制
- 标记方法适用于需要全局场景理解的任务，但需注意语义泄漏
VLM选择：
- 大型模型(>7B参数)能生成更准确的描述
- 领域特定微调可提升专业场景表现
计算效率优化：
- 对注视点描述进行批处理
- 使用量化模型加速推理
常见问题处理：
- 模糊注视点：增加"不确定"或"低清晰度"描述类别
- 边缘注视：采用非对称裁剪保留更多图像内容
- 快速扫视：考虑增加时间阈值过滤短时注视

5. 技术挑战与未来方向

当前框架存在几个值得关注的技术挑战：

描述一致性：相同视觉内容在不同位置可能获得不同描述，影响相似性计算。可能的解决方案包括：
- 使用确定性生成模式(temperature=0)
- 引入描述后处理标准化
时序信息保留：当前汇总方法可能弱化注视顺序的语义含义。未来可探索：
- 时序敏感的文本相似性度量
- 基于事件的扫描路径分段
跨场景比较：当前方法限于图像内分析，扩展到跨图像语义匹配需要：
- 场景无关的描述规范化
- 层次化相似性度量
计算成本：VLM推理的资源需求限制了大规模应用。优化方向包括：
- 小型化专用模型
- 注视点聚类后描述