news 2026/4/23 17:46:46

第二十七周周报

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
第二十七周周报

文章目录

  • 摘要
  • Abstract
  • 一.背景分析
  • 二、创新点
  • 三、实验和结果分析
  • 总结

摘要

本周研读的文献《基于 GAN 的中文虚假评论数据集生成方法》针对当前中文虚假评论检测研究中缺乏公开数据集的现状,提出了一种利用生成对抗网络(GAN)构建中文虚假评论数据的新模型。该模型整合了生成器、判别器、分类器、重构器以及Rollout策略模块,并借助强化学习对生成过程进行参数调优,从而能够合成贴近真实场景、且具备特定类别属性的虚假评论文本。实验评估显示,该模型在BLEU与NLL多项指标上均超过现有基准模型,不仅生成质量较高,也展现出显著的数据增强潜力。

Abstract

The literature studied this week, “A GAN-Based Method for Generating Chinese Fake Review Datasets,” addresses the current lack of publicly available datasets in Chinese fake review detection research by proposing a novel model that employs Generative Adversarial Networks (GANs) to construct Chinese fake review data. The model integrates generator, discriminator, classifier, reconstructor, and Rollout strategy modules, leveraging reinforcement learning for parameter tuning during the generation process. This enables the synthesis of fake review texts that closely resemble real-world scenarios while exhibiting specific categorical attributes. Experimental evaluations demonstrate that the model outperforms existing benchmark models across multiple metrics, including BLEU and NLL, showcasing not only high generation quality but also significant potential for data augmentation.

论文名称:《基于GAN的中文虚假评论数据集生成方法》
论文地址:地址

一.背景分析

当今时代,互联网发展迅速,网络上各式各样的评论层出不穷,其中就包括有许多内容上虚假的评论,蒙蔽网民的双眼,给互联网造成了不良导向。
现存问题1:虚假评论数据集缺乏:互联网虚假评论问题严重,但缺乏完全公开的中文虚假评论数据集,这给中文虚假评论研究带来了挑战。
问题2:互联网上虚假评论似真似假,人工难以分辨;获取大量数据耗时耗力,现有数据集构建方法的局限性:现有方法如人工分类、人为书写筛选和机器模型生成存在标注准确率低、人力物力消耗大等问题。

方法提出:
论文中构建了一种利用生成对抗网络生成中文虚假评论数据的方法。具体流程为如下:
1、借助蒙特卡洛搜索从生成器输出的文本序列中抽取一批样本;
2、通过强化学习机制,将判别器、分类器以及重构器的输出反馈转化为相应的奖励分值;
3、这些奖励被回传至生成器,驱动其参数更新与优化,从而合成既符合真实语言分布又具备指定类别属性与特征的虚假评论内容。
4、实验以BLEU分数作为衡量标准,结果显示,该模型在当前数据集上取得了更高的BLEU值,展现出良好的文本生成性能。

为什么这么提出?
答:深度学习在生成文本方面缺少调整生成文本序列的属性特征或通顺性及健壮性的模块,因此从生成文本的属性特征与通顺性及健壮性出发,在生成对抗网络(GAN)+强化学习(RL)通用范式的基础上,通过增加控制生成文本类别的生成器和提升生成文本通顺及健壮程度的重构器,构建了中文虚假评论数据集生成(dcrGAN)模型,解决了中文虚假评论数据不足且难以构造的问题。

二、创新点

1.模型结构的创新
在GAN模型的基础上增添了控制生成文本属性与类别的分类器和优化生成文本质量的重构器加粗样式,用于生成中文虚假评论数据集.

生成器 :采用GRU网络,根据输入的噪声向量和类别标签,生成带有特定属性特征的虚假评论文本序列。
判别器 :利用CNN及Highway架构判断输入文本是真实数据还是机器生成,迫使生成内容无限逼近真实人类语言习惯。
分类器 :使用CNN架构判断文本属于“虚假”还是“真实”评论类别,确保生成内容严格具备对应的标签属性。,在计算假句子的损失时,不仅最小化交叉熵损失,还包括香农熵:

中, 为平衡参数,它调节香农熵在损失中的影响. 在对抗训练中,香农熵对于生成器生成给定类别 起到至关重要的作用.

重构器 :通过基于VAE的双子模型计算真假句子的重构损失差值,以此作为奖励反馈优化生成文本的语义通顺性与健壮性,有更强的文本信息捕捉能力。

由于重构损失随着重构样本的不同而导致其差别很大,直接将重构损失作为传回生成器的奖励分数是不稳定的,因此增加子重构器作为R的基线模型以减小重构器奖励分数的不稳定性.其中R对假句子进行重构,R对真句子进行重构,它们的目标是使重构得到的句子接近放入品中的句子子重构器如图3所示,主要包括编码器、连接器和解码器3个部分

Rollout策略是为了评估生成器在生成句子过程中的中间状态而设计的。具体来说,它使用蒙特卡洛(MC)搜索来采样剩余的词标记。

在Rollout过程中,生成器的当前状态由已生成的序列部分构成,而动作值则对应下一个待生成的词标记。为提升动作值估计的准确性并降低方差,Rollout策略从当前状态出发执行多次MC搜索,每次获得一批输出样本。这些样本用于计算三类奖励分数:判别器奖励(QD)、分类器奖励(QC)和重构器奖励(QR)。这些分数全面评估生成器在不同生成阶段的表现,并指导参数优化以提升虚假评论数据的生成质量。
Rollout策略帮助模型在序列生成过程中做出更好的决策,从而提高最终生成文本的质量。

三、实验和结果分析

数据集及数据的预处理:
使用Li等人的虚假评论数据集,该数据集原本数据量为 9 765 条,将其中经过分词后的评论字符数少于 12 、与评价事物毫不相干、标点符号数目在此条评论占比高于该评论总字符数的 75% 、评论中有非中文字符的这些评论进行剔除,剩余 8 896 条评论。

超参数设置:
Rollout策略运行次数N设为16;最大序列长度M为48;词表大小V为10000;生成器由单层双向GRU层和全连接层组成;判别器和分类器的卷积核大小为1到M;重构器的编码器为双向双层LSTM层,解码器为Trans-former的编码器。
1、对比基线模型的评价指标
本文采用 5 个基线模型进行模型 性能比较,分别是 spamGAN 、 SeqGAN 、 RankGAN 、 K2T、 Base generator. spamGAN 、 SeqGAN 及 Rank-GAN 均采用原模型; K2T 采用原模型的无引导词、 有引导上下文的模式;Base generator 是本文模型的生成器。
实验采用BLEU值的二元组、三元组及四元组精度作为主要评价指标(该指标较多使用于文本生成领域. 其值范围为0~1,数值越大表示生成效果越好。)

NLL指标:
NLL指标用于衡量模型生成的文本序列与真实文本序列之间的差异。具体来说,它计算生成器生成的序列样本的对数似然值的负值。NLL值越低,表示模型生成的文本与真实文本越接近,生成效果越好。

重构器训练方式的影响:
模型中加入重构器对文本生成效果有提升,且当判别器和分类器为CNN、重构器为VAE时,模型生成效果最好,超过所有基线模型.

如下图所示,结果标明R-every-epochs为3时,dcrGAN模型总体效果最佳,二元组BLEU值为0.5564,三元组BLEU值为0.2763,四元组BLEU值为0.0912,困惑度为70.1488。

4、文本模型句子生成

模型生成的虚假和真实评论均具有较高的通顺性与可读性,且准确习得了各自的数据集特征——虚假评论表现为标点堆砌、内容肤浅,而真实评论则情感丰富且内容深入。

总结

本周阅读了《基于GAN的中文虚假评论数据集生成方法》。针对中文虚假评论数据稀缺的问题,文章提出了dcrGAN模型,在传统GAN框架中引入分类器以精确控制生成文本的真伪属性,并创新设计了双子重构器,通过差值奖励机制显著提升了文本的语义通顺性与健壮性。实验表明,该模型在BLEU指标上优于SeqGAN等基线模型,生成的评论不仅流畅,还能准确还原虚假评论标点堆砌、内容肤浅等特征,为文本数据增强提供了有效的新思路。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:48:48

交互噪声(Interaction Noise):推荐系统中被忽视却关键的问题

在推荐系统中,模型学习的核心依据是用户–物品交互数据。然而,这些交互并不总能真实反映用户的内在偏好,其中夹杂的大量干扰信号被称为 交互噪声(Interaction Noise)。如果不加处理,交互噪声会显著降低推荐…

作者头像 李华
网站建设 2026/4/23 9:56:59

无刷直流电机双闭环仿真:稳定运行与制动工况下的调制探索

无刷直流电机稳定运行和制动工况双闭环仿真,PWM-ON-PWM,PWM-OFF-PWM调制方式。 图一为拓扑图,图二为调制方式,图三为转速和电磁转矩波形,图四和图五为三相电流和电磁转矩放大和整体图,换相区间电磁转矩幅值较小&#x…

作者头像 李华
网站建设 2026/4/23 11:18:54

聊聊三相、五相电机的容错控制

三相、五相电机容错控制 三相电机断开一相容错控制; 五相电机断开一相、相邻两相容错控制在电机控制领域,容错控制可是个相当重要的课题。想象一下,电机在运行过程中突然某一相出了问题,如果没有有效的容错机制,那整个…

作者头像 李华
网站建设 2026/4/22 21:15:48

Superset,基于web的开源BI工具,github三万star

BI工具是数据分析的得力武器,目前市场上有很多BI软件,众所周知的有Tableau、PowerBI、Qlikview、帆软等,其中大部分是收费软件或者部分功能收费。这些工具一通百通,用好一个就够了,重要的是分析思维。 我一直用的Tabl…

作者头像 李华
网站建设 2026/4/23 11:35:36

9.28总结

9.28总结 知识回顾 # 1. 封装一个函数:获取指定数据的阶乘 【没有指定数据的话默认求10的阶乘】 默认参数 # 阶乘 比如5!5*4*3*2*1 # 未知数据 有1个 # 是否需要返回结果 def factorial(num10):result 1for i in range(num, 0, -1):result * ireturn…

作者头像 李华