数据去噪怎么做(数据清洗的几种方式)
来源:引流技巧
编辑:引流技巧
时间:2024-11-14
数据正负面
通过Hanlp方法实现语意切词,提取核心词,实现实体识别,对分词结果使用textRank计算分词权重。
使用BERT进行文本分类:模型结构由谷歌的发表的论文Pre-training of Deep Bidirectional Transformers for Language Understanding提出,使用Transformer结构的强大的自注意力机制所充分提取的语义特征进行下游的分类任务。
使用Bayes、SVM模型进行分类,对句子提取关键特征进行学习,推荐出相似度较高的句型。
利用语言结构,构建出一句话词的修饰关系,弥补词关系上的不足。
评判一条数据是否属于敏感的数据,比如维权,投诉,群众反映问题,社会热点网民热议等,便于用户提炼重要的数据
2. 数据的去噪
网络信息杂乱繁多,其中随处流传着许多良莠不齐的信息; 拼凑类信息,无舆情价值数据,涉黄涉毒等信息,需要在清洗层识别,便于用户留下干净的数据;
通过Hanlp方法实现机械切词,中建八局提取核心词,实现实体识别,对分词结果使用textRank计算分词权重;
引入来源分类概念,支持区分重要信源与非重要信源,借用来源分类实现不同级别网站的权重分级;
基于网站历史发布内容,监测短时间内数据量激增及垃圾噪音数据量占比高的网站,同时倚托腾讯接口,进行反向打标签;
根据微博涉黄涉赌的历史数据,定义好一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,通过正则表达式,命中字符串的数据会直接清洗掉;,
相关文章:
相关推荐:
栏目分类
最新文章