1. 视觉语言模型与扫描路径相似性研究概述
眼动追踪技术长期以来为我们提供了精确的"人们看向何处"的数据,但解读"人们看到了什么"始终是一个挑战。传统扫描路径(scanpath)相似性度量方法如MultiMatch、动态时间规整(DTW)等,主要评估注视点的空间和时间对齐程度,却忽视了被注视图像区域之间的语义等价性。这种局限性在实际应用中尤为明显——两位观察者可能注视概念相似但位置不同的物体(如人脸、文字、车辆),导致空间相似性得分很低;反之,相似的注视路径可能落在语义完全不同的物体上,却获得很高的几何相似性评分。
视觉语言模型(Vision-Language Models, VLMs)的突破性发展为解决这一问题提供了全新思路。作为多模态AI的核心技术,VLMs能够将视觉信息与自然语言处理相结合,实现图像内容的语义理解与描述生成。其工作原理基于深度学习框架下的跨模态对齐,通过大规模预训练学习视觉特征与语言概念之间的映射关系。具体到扫描路径分析,VLMs可以将每个注视点转换为简洁的文本描述,进而将整个扫描路径表示为语义快照的序列。这种转换使得我们能够利用成熟的NLP相似性指标(如BERTScore、ROUGE、BLEU等)在语义层面比较注视行为,而不仅仅是空间坐标的匹配。
2. 语义扫描路径相似性框架设计
2.1 整体架构与工作流程
我们提出的语义扫描路径相似性框架包含三个核心阶段:
注视点到文本的转换:对于刺激图像I和扫描路径S={(x_t,y_t,d_t)},采用两种视觉上下文编码策略:
- 基于局部图像块的方法:以注视点为中心裁剪不同尺寸(96×96、192×192、256×256像素)的方形区域
- 基于标记的方法:在全图上叠加红色圆形标记(半径100像素)指示注视位置
扫描路径语义汇总:将单个注视点描述序列{δ_t}聚合成连贯的段落τ(S),使用特定提示模板引导VLM生成包含时序信息的整体摘要
相似性度量与分析:
- 语义相似度:应用BERTScore、ROUGE-L、BLEU-4、BM25等NLP指标比较文本摘要
- 空间相似度:计算ScanMatch、DTW、MultiMatch等传统几何指标
- 相关性分析:通过Spearman秩相关系数评估语义与空间度量的关系
2.2 注视点编码的关键技术细节
在局部图像块编码中,我们系统评估了不同尺寸的影响。较小尺寸(96px)近似中央凹视野但可能缺乏物体上下文;中等尺寸(192px)平衡局部细节与上下文;较大尺寸(256px)包含更多周边信息但可能引入无关内容。技术实现上,我们使用Python的Pillow库进行图像裁剪:
from PIL import Image def extract_patch(img_path, x, y, size=192): img = Image.open(img_path) width, height = img.size x_px, y_px = int(x*width), int(y*height) left = max(0, x_px - size//2) upper = max(0, y_px - size//2) right = min(width, left + size) lower = min(height, upper + size) return img.crop((left, upper, right, lower))对于标记编码方法,我们使用OpenCV在原始图像上叠加注视标记:
import cv2 import numpy as np def mark_fixation(img_path, x, y, radius=100): img = cv2.imread(img_path) x_px, y_px = int(x*img.shape[1]), int(y*img.shape[0]) # 绘制红色标记圆 cv2.circle(img, (x_px, y_px), radius, (0,0,255), 3) cv2.circle(img, (x_px, y_px), 5, (0,0,255), -1) return img2.3 VLM提示工程优化
为确保生成的描述一致且相关,我们设计了精细的提示模板。对于单个注视点描述,提示明确要求:
"用1-2句话描述此图像块中看到的内容。重点关注任何物体、人脸、文字或显著视觉内容。如果图像块模糊或仅显示纹理/背景,请描述主要颜色、纹理或可见的部分物体。"
对于扫描路径汇总,提示强调时序理解和认知策略推断:
"你正在分析人类观察者观看图像时的注视行为。以下是他们按时间顺序注视的图像区域描述列表:[δ1;δ2;...;δT]。根据这些注视描述和完整图像,撰写一个连贯的段落,总结该观察者关注的内容及其可能使用的认知策略。"
3. 实验设计与结果分析
3.1 数据集与评估设置
我们在COCOFreeView数据集上开展实验,该数据集包含在MS-COCO图像上的自由观看眼动数据。为确保结果可靠性,我们固定使用100张图像的验证子集,每张图像包含5条扫描路径,共产生1000个图像内扫描路径对进行比较。
实验对比四种视觉编码条件:
- 96×96像素局部块
- 192×192像素局部块
- 256×256像素局部块
- 全图标记(半径100px)
技术实现上,我们采用Qwen3-VL-8B-Instruct作为基础VLM,在RTX4000显卡上使用vLLM进行推理。生成温度设置为:注视点描述0.2(降低随机性),扫描路径汇总0.3(提高流畅性)。
3.2 语义与空间相似性的相关性分析
实验结果揭示了几个关键发现:
中度非冗余相关性:BERTScore与空间指标的Spearman相关系数在0.1-0.3之间,表明语义相似性既非完全独立,也非几何对齐的简单重述。这种部分耦合但非冗余的关系证实了语义分析作为补充维度的价值。
视觉上下文的影响:
- 小尺寸块(96px)显示出较低且不稳定的相关性,反映有限上下文导致的描述模糊性
- 中等尺寸(192px)相关性提高,表明更好的物体识别能力
- 大尺寸(256px)产生最稳定的语义表征,对应图像约2%的面积
标记方法的场景泄漏效应:全图标记条件显示出更高的语义-空间相关性,表明VLM可能利用全局场景线索推断局部内容,降低了语义表征的独立性。
3.3 不同NLP指标的表现对比
四种语义相似性指标展现出明显差异:
- BERTScore:表现最稳定,利用上下文嵌入捕捉深层语义等价
- ROUGE-L/BLEU-4:基于表面形式匹配,相关性较弱
- BM25:TF-IDF加权词频统计,表现介于中间
这表明嵌入-based方法更适合扫描路径的语义比较,而传统NLP指标可作为辅助诊断工具。
4. 实际应用与注意事项
4.1 典型应用场景
用户体验研究:识别不同用户群体在界面浏览时的语义关注差异,超越简单的热点图分析
医学图像解读:比较专家与新手的扫描路径语义模式,发现专业认知策略
广告效果评估:分析消费者对营销素材的语义理解路径,优化视觉设计
人机交互优化:基于语义注视模式调整界面元素的呈现方式
4.2 实施建议与注意事项
视觉上下文选择:
- 优先考虑192-256px的局部块,平衡物体识别与上下文控制
- 标记方法适用于需要全局场景理解的任务,但需注意语义泄漏
VLM选择:
- 大型模型(>7B参数)能生成更准确的描述
- 领域特定微调可提升专业场景表现
计算效率优化:
- 对注视点描述进行批处理
- 使用量化模型加速推理
常见问题处理:
- 模糊注视点:增加"不确定"或"低清晰度"描述类别
- 边缘注视:采用非对称裁剪保留更多图像内容
- 快速扫视:考虑增加时间阈值过滤短时注视
5. 技术挑战与未来方向
当前框架存在几个值得关注的技术挑战:
描述一致性:相同视觉内容在不同位置可能获得不同描述,影响相似性计算。可能的解决方案包括:
- 使用确定性生成模式(temperature=0)
- 引入描述后处理标准化
时序信息保留:当前汇总方法可能弱化注视顺序的语义含义。未来可探索:
- 时序敏感的文本相似性度量
- 基于事件的扫描路径分段
跨场景比较:当前方法限于图像内分析,扩展到跨图像语义匹配需要:
- 场景无关的描述规范化
- 层次化相似性度量
计算成本:VLM推理的资源需求限制了大规模应用。优化方向包括:
- 小型化专用模型
- 注视点聚类后描述
这一研究方向正处于快速发展阶段,随着多模态模型能力的提升,语义扫描路径分析有望成为连接低层眼动数据与高层认知理解的关键桥梁,为人机交互、认知科学和AI系统设计提供全新视角。