摘要
针对目前情感极性分析中电力咨询短文本的准确性较低的问题,提出一种基于改进潜在狄利克雷分配(LDA)算法的电力用户咨询文本分类算法。在分析电力咨询短文本与情感的关联关系基础上,定义了基于情感词共现袋、主题特殊词以及主题关系词的概念;为提高语义分析的质量,设计了改进LDA算法的电力用户咨询文本分类算法执行流程。实验表明,所提模型表现出优异性能,平均精确度和平均召回率为90.91%和85.03%。所提模型可充分发挥多模型集成优势,有效提升模型性能。
随着电力市
目前,主题分
为改善上述问题,本文提出一种基于改进LDA算法的电力用户咨询文本分类算法。该算法以LDA模型为基础,结合卷积神经网络(CNN)和K-means等模型,可有效对电力咨询短文本进行分类。
由于词性的不同,电力咨询短文本与情感的关联程度不同。通常情况下,最能反映情感的词性包括形容词、动词和副词。这些词用于修饰名词,以便对人物、事件和热门主题的电力短文本进行最终分析。因此,为提取情感词汇,首先应建立情感词共现袋。
令ST为短文本词袋,情感词共现袋[
∪ ∪ ∪ ∪ | (1) |
式中:、、v、和分别为形容词、副词、动词、名词和其他词性;i、k、j、h、n分别为短文本包中形容词、副词、动词、名词和其他词性的数量;、、、和分别为形容词、副词、动词、名词和其他词性的词袋;为共现。需注意,名词袋用于表示动词和名词的共现,且该词袋取决于原始的短文本,而不取决于词典。
当删除停止词后,假设这些共现词的表达是相邻的动词和名词,可基于此提取共现词。此外,形容词袋和副词袋的情感极性主要取决于词典中是否有反义词、否定词和转折词。假设表示形容词袋和副词袋的词汇限制:
(2) |
式中:p为句子中是否存在反义词或否定词;“-”为表达极性相反的词。
动词袋的词汇主要取决于词典中是否有扩展的形容词或副词。同理,动词袋的词汇限制)为:
(3) |
式中为词根。
主题特殊
假设Ai为主题T的第i个特殊词,w为主题特殊词,则w定义如下:
(4) |
式中:为主题关系词;为和的中心权重,且由和的共现度计算。当一个词与这个主题中的其他词有更高的共现度时,表明该词更具代表性,对这个主题更为重要。
令和表示名词与动词的相对共现,则有:
(5) |
式中:为词和在同一主题中一起出现的次数;和分别为词和出现在主题中的次数。
假设表示名词和动词的共现,则有:
(6) |
提出的一种基于改进LDA算法的电力用户咨询文本分类算法的框架如

图1 基于改进LDA算法的电力用户咨询文本分类算法
Fig.1 Power user consultation text classification algorithm based on improved LDA algorithm
算法使用预处理的电力用户咨询短文本作为训练集,首先在LDA主题模型中进行训练,缩减维度以获得初始主题集;然后,构建基于情感极性标记的词共现袋,并通过特征处理获得主题专用词集;之后进一步提取相似的主题构造知识,获得一组主题关系词;再将主题特殊词和主题关系词的知识对注入Word2Vec卷积神经网络(Word2vec Convolutional Neural Network,WCNN)模型进行特征提取;接着,基于LDA模型对提取的特征进行初级聚类,生成Top30主题特殊词集。最后,利用K-means算法将Top30主题特殊词集作为K-means聚类的初始聚类中心,并计算主题特殊词的情感聚类结果。
对电力用户咨询短文本语料库进行预处理。首先使用爬虫对电力用户短数据进行抓取,同时,对抓取后的数据进行数据清洗,删除词干、词尾、文档频率低的词;然后,采用分词软件对中文短文本进行分词;最后,利用LDA主题模型进行数据降维处理。短文本语料库数据预处理的目的是对数据进行降维和去噪,并存储语料库中每个词的初步知识。
经过短文本预处理后,基于情感词共现的词袋算法在电力用户咨询短文本词袋中添加词性标记,得到情感词袋,用于情感特征提取。通过提取主题特殊词集和主题关系词集执行从知识集的特征提取,同时,分析与主题相关的词性,从而确保提取有用的知识。基于情感词共现的词袋算法流程如下:
算法1 情感词共现的词袋算法流程
输入:短文本词袋;
输出:情感词袋;
//执行过程
1 初始化
2 for in do
3 if or or
4 根据
5 保存并更新
6 end if
7 end for
算法中,最重要的环节是判断词汇和极性。当输入的词性是形容词、动词、副词或动词-名词共现对时,将保存并更新情感词共现袋F(ST)。最终,算法输出电力用户咨询短文本的情感词袋。
特征提取的主要功能是提取文本的最小信息,降低向量空间的维数,从而提高文本处理的速度和效率。本文基于改进的WCNN模型对电力短文本进行特征提取。
WCNN主要基于CNN模型构建。输入层中引入Word2Vec预训练情感词包。在卷积层,使用不同大小的多个卷积核并行学习文本特征,最终在输出层中生成文本特征。

图2 WCNN模型的结构
Fig.2 Structure of WCNN model
为充分提取文本特征,在输入层使用Word2Vec训练每个情感词袋。特定的词嵌入通过指定相应的参数获得,包括词嵌入的维度、迭代次数和上下文窗口的大小(即每个窗口中的字符数)。每个出现多次的词都会扩展到m×k维,其中m为词袋中的词数,k为训练期间指定的词嵌入维度。
假设电力文本情感词袋x包括n个词,则x表示为:
(8) |
式中:为连接操作符;为情感词袋中的词。
使用具有不同大小的多重卷积核的并行卷积层学习电力文本特征;同时,设置多个卷积核全面获取情感词袋表达中的特征。卷积层包括3个尺度的卷积核,分别设置为:、、。其中,k为整数且为词嵌入的维数,为滑动窗口每次移动时滑动的词数。卷积核生成的特征,可根据
(9) |
式中:w为卷积层的共享权重;为词嵌入的连接,即来自情感词袋中任意i+h-1个词;b为偏置;f为一个非线性函数,本文选取ReLu函数。因此,有:
(10) |
当执行完卷积后,输出特征为:
(11) |
将提取出的电力文本特征通过K-means算法(预设为K类)进行聚类。执行完特征提取后,文档之间的相似度问题转化为特征向量之间的相似度问题,本文基于余弦相似性实现特征之间的相似性度量。与距离度量相比,余弦相似度更关注2个向量之间的方向差异,而不是距离或长度。2个向量之间的角度越小,其相似性越高。令2个特征向量为a和b,其相似性为:
(13) |
式中:()为向量a的横坐标和纵坐标;()为向量b的横坐标和纵坐标。
在相似性度量完成后实现知识对的提取。在知识对提取过程中,使用提取的主题特殊词和主题关系词生成每个主题的领域知识。生成的知识对由)组成,其中表示主题特殊词集,表示主题关系词集。知识对提取模型如

图3 知识对提取
Fig.3 Knowledge pair extraction
基于主题知识对的K-means聚类算法的执行过程如下:
算法2 主题知识对的 K-means聚类算法的执行过程
输入:特征向量;聚类数;最大迭代次数;迭代终止条件
输出:主题特殊词聚类
//执行过程
1 根据
2 提取知识对
3 根据LDA获取Top30重要词
4 K主题特殊词聚类
5 计算与知识对中主题距离
6 计算每个类的标准度函数
7 判断迭代条件是否满足
8 满足则输出;否则,执行步骤2
9 输出K主题特殊词聚类
算法中,标准度函数E定义为:
(14) |
式中:为聚类的中心主题;Cn为聚类的类别。
仿真所用数据集为中国某电力公司提供的电力用户咨询数据,数据类型包括:语音、短信信息、微博信息、调查报告、网站留言等。首先,对数据进行预处理:对文本数据,移除无用元素(如特殊符号)、分词、词性标记、命名实体识别、虚假信息过滤;对语音数据,最终转化为文本信息。最终生成的文本数据集共包含11 606个数据,其中正面情绪和负面情绪分别为5 803个,按8:2分为训练集、测试集。
实验时仿真环境设置如下:硬件为Intel Core i9-7900X CPU 3.30 GHz、32 GB RAM和Ubuntu 18.04操作系统;算法由python3.7编写,并基于pytorch1.7搭建特征提取网络。
将预处理后的电力咨询文本数据带入特征提取网络进行训练,并提取特征向量。然后,应用基于主题知识对的K-means聚类算法对特征进行处理;最终输出K个聚类结果。
根据分析结果,主题词聚类可分为:购电、套餐、电力共享、收费、安全、电表等。其中,不同主题词包含不同的情感主题词,如购电中包含:方便、省事、满意等具有正面情感的词;同时,也存在部分负面情绪主题词,如太贵、退火、不切实际等。电力情感词统计结果如
number of positive emotion keywords | number of negative emotion keywords | |
---|---|---|
purchase electricity | 15 | 14 |
package | 11 | 9 |
electricity sharing | 21 | 23 |
charge | 16 | 14 |
security | 10 | 11 |
electricity meter | 15 | 14 |
为验证所提模型有效性,选取k平均精确度(mPk)和k平均召回率(mRk)指标,分别与随机森林(Random Forest,RF)、支持向量机(Support Vector Machines,SVM)、LDA、递归神经网络(Recurrent Neural Network,RNN)、长短时记忆(Long Short Term Memory,LSTM)等模型进行对比,结果如
model | mP30 | mR30 |
---|---|---|
RF | 0.792 1 | 0.053 5 |
SVM | 0.680 5 | 0.324 4 |
BPNN | 0.685 3 | 0.551 9 |
LDA | 0.581 4 | 0.649 5 |
RNN | 0.803 5 | 0.681 9 |
LSTM | 0.852 8 | 0.780 7 |
proposed model | 0.909 1 | 0.850 3 |
(15) |
式中:q为查询数;为前k个评估结果所占相关目标比例。
(16) |
式中为前k个评估目标中发现相关目标的比例。
本文对电力咨询短文本分类进行了研究与分析,设计了一种混合计算智能的电力咨询短文本分类模型。该模型可基于WCNN提取文本特征,并基于LDA和K-means实现文本分类。该模型为电力服务行业发展提供了一定的借鉴作用。
参考文献
杨争林,曾丹,冯树海,等. 电力市场实验能力建设面临的挑战及关键技术[J]. 电力系统自动化, 2022,46(10):111-120. [百度学术]
YANG Zhenglin,ZENG Dan,FENG Shuhai,et al. Challenges and key technologies of experiment capability construction for electricity market[J]. Automation of Electric Power Systems, 2022,46(10):111-120. doi:10.7500/AEPS20210820001. [百度学术]
向德军,周睿,黄志生,等. 基于混合云计算平台的电力市场交易平台关键技术的研究[J]. 山东农业大学学报(自然科学版), 2021,52(4):704-708. [百度学术]
XIANG Dejun,ZHOU Rui,HUANG Zhisheng,et al. Study on key technologies of electricity market trading platform based on hybrid cloud computing platform[J]. Journal of Shandong Agricultural University(Natural Science Edition), 2021,52(4):704-708. doi:10.3969/j.issn.1000-2324.2021.04.031. [百度学术]
周戈,谢妮娜,潘宇晨. 物联网电力通信运维架构系统设计及关键技术[J]. 系统仿真技术, 2022,18(1):12-17. [百度学术]
ZHOU Ge,XIE Ni'na,PAN Yuchen. Research on design of power communication operating maintenance architecture system and its key technology[J]. System Simulation Technology, 2022,18(1):12-17. doi:10.16812/j.cnki.cn31-1945.2022.01.002. [百度学术]
文耀宽,王献军,王峻,等. 基于随机森林算法的电力计量大数据分析平台研究[J]. 计算机技术与发展, 2021,31(6):216-220. [百度学术]
WEN Yaokuan,WANG Xianjun,WANG Jun,et al. Research on big data analysis platform for electric power measurement based on random forest algorithm[J]. Computer Technology and Development, 2021,31(6):216-220. doi:10.3969/j.issn.1673-629X.2021.06.038. [百度学术]
钟建栩,余少锋,廖崇阳,等. 基于云计算的电力设备智能监测系统[J]. 云南师范大学学报(自然科学版), 2022,42(3):37-41. [百度学术]
ZHONG Jianxu,YU Shaofeng,LIAO Chongyang,et al. Research on power equipment condition monitoring system based on cloud computing[J]. Journal of Yunan Normal University(Natural Science Edition), 2022,42(3):37-41. doi:10.7699/j.ynnu.ns-2022-034. [百度学术]
关菁华,刘鑫,刁建华. 基于词嵌入的微博谣言主题分类研究[J]. 软件导刊, 2019,18(4):1-3,8. [百度学术]
GUAN Jinghua,LIU Xin,DIAO Jianhua. Research on the topic classification of Weibo rumors based on word embedding[J]. Software Guide, 2019,18(4):1-3, 8. doi:10.11907/rjdk.191169. [百度学术]
过云燕,李建中. 分布式潜在狄利克雷分配研究综述[J]. 智能计算机与应用, 2021,11(9):200-205. [百度学术]
GUO Yunyan,LI Jianzhong. A survey of distributed latent Dirichlet allocation[J]. Intelligent Computer and Applications, 2021,11(9):200-205. doi:10.3969/j.issn.2095-2163.2021.09.040. [百度学术]
康雨萌,何玮,翟千惠,等. 基于主题提示的电力命名实体识别[J]. 计算机系统应用, 2022,31(9):272-279. [百度学术]
KANG Yumeng, HE Wei,ZHAI Qianhui,et al. Electric power named entity recognition based on topic prompt[J]. Computer Systems & Applications, 2022,31(9):272-279. doi:10.15888/j.cnki.csa.008750. [百度学术]
许睿,龙丹,刘佳,等. 基于LDA模型的电力投诉文本热点话题识别[J]. 云南大学学报(自然科学版), 2020,42(S2):26-31. [百度学术]
XU Rui,LONG Dan,LIU Jia,et al. Identification of hot topics in power complaint text based on LDA model[J]. Journal of Yunnan University(Natural Sciences Edition), 2020,42(S2):26-31. [百度学术]
刘德喜,聂建云,万常选,等. 基于分类的微博新情感词抽取方法和特征分析[J]. 计算机学报, 2018,41(7):1574-1597. [百度学术]
LIU Dexi,NIE Jianyun,WAN Changxuan,et al. A classification based sentiment words extracting method from microblogs and its feature engineering[J]. Chinese Journal of Computers, 2018,41(7):1574-1597. doi:10.11897/SP.J.1016.2018.01574. [百度学术]
张书谙,王曦,代继鹏,等. 基于关键词共现网络的主题词提取算法[J]. 复杂系统与复杂性科学, 2023,20(1):74-80. [百度学术]
ZHANG Shu,an,WANG Xi,DAI Jipeng,et al. Subject words extraction algorithm based on keyword co-occurrence network[J]. Complex Systems and Complexity Science, 2023,20(1):74-80. doi:10.13306/j.1672-3813.2023.01.010. [百度学术]
马瑛超,张晓滨. 基于主题关系的中文短文本图模型实体消歧[J]. 计算机工程与科学, 2023,45(1):154-162. [百度学术]
MA Yingchao, ZHANG Xiaobin. Entity disambiguation of Chinese short text using graph model based on topic relations[J]. Computer Engineering and Science, 2023,45(1):154-162. doi:10.3969/j.issn.1007-130X.2023.01.018. [百度学术]