现代职业教育杂志社 > 论文中心 >

基于R软件的数据挖掘应用

2017-10-03  |  点击:  |  栏目:论文中心

  [摘 要] R软件集成了多种数据分析和可视化方法,具有强大的分析能力和出色的扩展性,因此被广泛应用于数据挖掘之中。通过聚类分析和分类回归树方法给出了R软件在数据挖掘中的应用。从简洁的脚本设计和出众的分析效果展示了 R 软件的基本特点及其在数据挖掘中的优势。
  [关 键 词] R软件;数据挖掘;聚类分析;分类回归树
  [中图分类号] F407.67 [文献标志码] A [文章编号] 2096-0603(2017)18-0045-01
  近年来,随着电子商务、社交网站、移动终端应用开发的兴起,企业对用户基本数据、行为数据、网络痕迹数据等信息的掌握逐渐成为其在信息领域的核心竞争力,“用数据说话、用数据决策”已成为企业未来发展的基石。然而,传统数据在全样抽取时存在时效性差、不适合处理实时数据的缺陷,因此,如何从数据中挖掘出有价值的信息就显得十分重要。
  一、数据准备
  数据文件包括通用型文件如纯文本文件、Excel等,通过加载不同的功能模块,R软件还可以读取多种数据文件。通过安装 RODBC、RJDBC和RMySQL可以获取对 ODBC、JDBC和Oracle 数据源的访问能力。由于实际应用中往往需要对异构数据源进行挖掘,R 软件提供的针对各种数据源的访问接口具有很强的适用性。
  二、数据挖掘建模
  (一)聚类分析
  k-means是经典的基于划分的聚类方法,其基本思想是使聚类性能指标最小化。所用的聚类准则函数是聚类集中每个样本点到该类中心的距离平方之和,应使其最小化。为此,首先根据给定聚类数K,为每个聚类确定一个初始聚类中心;其次将样本集里的各个样本按最小距离原则分配到最邻近的聚类,并使用每个聚类中的样本均值作为新的聚类中心,如此重复直到聚类中心不发生变化;最后可获得K个聚类。
  R软件中可以用k-means()函数来进行聚类。聚类可视化采用判别投影绘制函数plotcluster(),把数据对象映射平面空间,展示聚类之间的异构性。以数据集iris为例。所用代码见表1。
  (二)分类回归树分析
  R软件提供的分类回归树函数有很多种,为简化获得的分类回归树模型,避免产生过度拟合,常采用的分类回归树函数为rpart(),rpart()可以建立一个分类回归树,并且可以选择最小误差的预测。利用rpart包中的bodyfat数据集建立分类回归树,然后用该分类回归树预测,所用代码见表2。
  优秀的数据挖掘工具一方面要求丰富的数据挖掘功能,另一方面也需要優化的算法和用户体验,R软件具备构建实用性强的数据挖掘系统的各种条件,且具有开源的特点,交互方式提供可视化界面,还支持数据挖掘工作流的任务定义与执行,简化了编程人员的操作。此外,可通过自定义脚本来进行分析功能及其他诸如C语言、java语言的调用等。因此,R语言未来将在大数据的挖掘领域有更广泛的应用。
  参考文献:
  邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

相关文章:
  • 1 课程思政融入大学语文教学的路径探究及思考
  • 2 基于CiteSpace的国际中文教师文献综述可视化研究
  • 3 新时期职业本科院校音乐教育生态系统的构建路径分析
  • 4 医药院校药物化学课程思政的教学设计与实施
  • 5 高校军事理论课程互动研讨式教学模式探析
  • 6 装备维修保养技能训练课程教学设计探析
  • 7 制药工程工艺设计实验模拟车间型教学探究
  • 8 产教融合视域下卫星导航定位实践教学改革探索
  • 9 应用型本科商科专业教材评估指标体系构建
  • 10 食品微生物学检验课程案例库建设及案例式教学的探索应
  • 现代职业教育杂志论文在线投稿
    刊物简介
      现代职业教育
    • CN :14-1381/G4
    • ISSN:2096-0603
    • 邮发代号:22-382
    • 邮箱投稿:xdzyjy@163.com

    • 国家新闻出版总署收录
    • 中国知网、万方数据—数字化期刊群
    • 龙源期刊网、维普数据库全文收录。
    期刊目录
    杂志动态
    最近更新