数据分析师对词频统记的算法以及用法
来源:中国数据分析学习网 / 时间:2020-02-03
对于词频统记的算法以及用法有以下三个方面
1、 提取文章的关键词
对某篇文章使用词频统计算法可以知道文章中各个词出现的次数,从而可以得出除了停用词之外,出现频率较高的词作为文章的关键词,除此之外也可以知道该文章的大致论述对象以及文章的主要内容。
2、 文本数据预处理
在情感分析的问题中,数据预处理统计算法,可以统计出各个词出现的频率删除掉停用词之后可以加入到词汇表,就可以作为数据的拟合以向量化表示。
3、 生成词云图
除以上两点之外有个各个词的词频我们就可以引入词云图技术来直观的反应这些词之间的关系。
Datahoop平台算法中已经包含了生成词云图的功能,如何在上传算法中生成图,我们在上传算法的编辑器的code处提供了词云图的事例代码。
Datahoop平台介绍:http://www.chinacpda.com/datahoop/
简单的视频教程为你详细解答数据分析对词频统记的一些方法:
http://www.chinacpda.com/videocenter/detail/?id=424
2020年CPDA数据分析师开课信息:http://www.chinacpda.com/openclass/
免费客服热线:400-050-6600
商业联合会数据分析专业委员会