金旭,王磊,孙国梓,李华康.一种基于质心空间的不均衡数据欠采样方法[J].计算机科学,2019,46(2):50-55
一种基于质心空间的不均衡数据欠采样方法
Under-sampling Method for Unbalanced Data Based on Centroid Space
投稿时间:2017-12-19  修订日期:2018-04-19
DOI:
中文关键词:  不均衡,欠采样,k-means,SMOTE算法
英文关键词:Unbalanced,Under-sampled,k-means,SMOTE algorithm
基金项目:本文受国家自然科学基金资助
作者单位E-mail
金旭 南京邮电大学江苏省大数据安全与智能处理重点实验室 南京210023  
王磊 南京邮电大学江苏省大数据安全与智能处理重点实验室 南京210023  
孙国梓 南京邮电大学江苏省大数据安全与智能处理重点实验室 南京210023
江西省经济犯罪侦查与防控技术协同创新中心 南昌330103
数学工程与先进计算国家重点实验室 江苏 无锡214000 
 
李华康 南京邮电大学江苏省大数据安全与智能处理重点实验室 南京210023
江西省经济犯罪侦查与防控技术协同创新中心 南昌330103
数学工程与先进计算国家重点实验室 江苏 无锡214000 
huakanglee@163.com 
摘要点击次数: 0
全文下载次数: 0
中文摘要:
      针对目前的分类算法在不均衡数据集上的分类效果不理想的问题,将监督学习和无监督学习相结合,提出了一种基于质心的欠采样——ICIKMDS。在现实应用中,一些数据并不容易获得,或者不同类型的数据本身在数量上就存在着差异性,因此造成了数据集分布的不均,如疾病检测中疾病患者和正常人比例的不均、信用卡欺诈中欺诈用户和正常用户比例的不均等。所提方法很好地解决了数据集不均衡的问题,首先通过求解样本之间的欧氏距离得到初始质心,然后采用k-means算法在大类样本集上进行聚类,使不均衡数据集在分布上更加均衡,有效地改善了分类器的分类效果。所提方法使分类器在测试集小类上的分类准确率远远高于随机欠采样和SMOTE算法,在整个测试集上的准确率几乎与其他算法相同。
英文摘要:
      In view of the fact that the classification performance of current classification algorithms is not ideal for the unbalanced dataset,through combining supervised learning and unsupervised learning,this paper proposed a sub-sampling method based on centroid,namely ICIKMDS.In practical applications,some data are not easily to be obtained or different types of data are different in quantity,resulting in uneven distribution of data,such as the disproportion of the sufferer and the normal people in the detection of diseases,the disproportion of the fraud users and normal users in credit card fraud and so on.The new method solves the disproportion problem of dataset well.In this method,the initial centroid is obtained by solving the Euclidean distance between samples,and then the k-means algorithm is used to cluster the large-class sample sets to make the disproportionate dataset more balanced in distribution,effectively improving the effect of classifiers.The proposed method makes the classification accuracy of the classifier much better than that of random under-sampling and SMOTE algorithm on the subclass of test set,and its accuracy on the whole test set has little difference from other algorithms.
查看全文  查看/发表评论  下载PDF阅读器