不要把数据分析中的词频统计当作一个难题
来源:CPDA中国数据分析学习网 / 时间:2020-02-03
其实我们每天都享受着自然语言给我们带来的便利,比如搜索引擎给我们带来的关键词搜索,输入法中的自动纠错功能,以及购物网站上面的购物名称联想等等。
今天小编要为大家介绍的就是自然语言处理领域常用的算法之一,我们这次主要是在Datahoop平台来演示词频统计的方法。
首先我们要进入Datahoop专业版分析工作平台
1、 选取工作模块
2、 选取自己所要用的文件
3、 从算法库中选择词频统计算法
4、 拖拽出结果展示的模块进行结果接收点击查看。
这里就能看到展示结果,展示结果一般分为两个部分
1、 词云图可以对文章的内容进行可视化
字体越大说明此关键词在本篇文章里出现的频率也高
2、词频统计:需要注意的是在词频统记中出现的(的、在、得、了)等我们称之为停用词,所谓的停用词指的是,这些词在文章中并不能对文章的内容产生任何的影响,所以在实际操作的时候我们会把这些停用词都删掉,我们会在结果中找到出现频率的前几个词,从而知道本篇文章到底说的那几个词是重点。
更多开班信息:http://www.chinacpda.com/openclass/
各省培训授权机构:http://www.chinacpda.com/train/
2020年考核时间:http://www.cpda.cn/examine/
商业联合会数据分析专业委员会