1.6.1 创建数据挖掘项目
SAS于1966年开始研制,1976年由美国SAS软件研究所实现商品化。SAS系统经过30多年的发展,以其卓越的数据处理能力为在线数据分析、数据仓库、数据挖掘和决策支持提供了全面的解决方案。SAS系统的发展始终离不开它强大的数据分析功能。而且随着信息技术的发展,其分析功能也变得更强。目前SAS的最新版本为9.4版,本书根据SAS 9.4版来编写,其中使用的Enterprise Miner是12.3版。
SAS Enterprise Miner(简称SAS EM)是数据挖掘工具市场上非常杰出的工具。它运用了SAS统计模块的功能,且增加了一系列资料挖掘算法,包括取样、探测、修改、评估方法,并提供了广泛的模型,包含合并、聚类、决策树、神经网络和统计回归等。SAS EM适用于初学者及专业使用者。它的GUI接口是以数据流为导向的,因此容易了解及使用。它允许用户通过连接资料节点及程序节点的方式构建可视化的数据流程图,还允许直接嵌入程序代码到数据流中。
用户可以在菜单栏中选择“开始”→“所有程序”→“SAS”→“SAS Enterprise Miner Workstation 12.3”启动软件,如图1-20所示。
SAS EM启动后,弹出图1-21所示的操作界面。
要开始数据挖掘项目,首先要创建一个新项目。单击“新建项目”选项,弹出新建项目的“第1步”对话框,如图1-22所示。
在“项目名称”文本框中输入项目名称,在“SAS服务器目录”文本框中输入项目地址,也可以单击“浏览”按钮,通过图形化界面选择一个地址。以下新建了一个名为sasem_demo的项目,单击“浏览”按钮并选择将项目文档的目录放在“我的文档”文件夹中,如图1-23所示。
图1-20 软件启动
图1-21 SAS EM新建项目示例1
图1-22 SAS EM新建项目示例2
图1-23 新建项目保存界面
单击“打开”按钮,之后单击“下一步”按钮,弹出新建项目的“第2步”对话框,如图1-24所示。
图1-24 新建项目信息
第2步只是让我们确认一下,单击“完成”按钮即可。这样就在“我的文档”中创建了以项目名称命名的文件夹,如图1-25所示。
图1-25 文档保存命名
项目建好之后,便出现SAS EM工作界面。每个区域的功能如图1-26所示。
图1-26 SAS EM工作界面
·菜单栏和快捷按钮:提供了Windows程序常用的菜单功能,还有一些训练模型相关的“运行”“停止”等快捷按钮。
·项目面板:以树形图的方式展现当前项目包括的数据源、流程图、模型包。
·属性面板:当用户在流程图中选择某节点后,便会在属性面板处展现该节点所有可调节的属性,一般分为常规、训练、报表等栏目,这部分将在后续章节详细讲解。
·帮助面板:当在属性面板中选择某个内容时,就会出现简短的帮助信息,根据这些帮助信息可以大致了解设置该属性的操作方式,但是不会提供属性中可选项的含义,这需要在菜单中选择“帮助”下的“目录”命令来学习和查找。
·流程图工作区:可以任意地构建、编辑和运行处理流程。一个工作区域可以放置任意多个处理流程,但是一般会建立多个流程图工作区。每个流程图工作区单独用于调试一个处理流程。
·处理流程:该部分是分析的关键,SAS EM将数据处理过程像搭积木一样构建起一个复杂的数据挖掘过程。该过程如果通过编程来完成,经常会耗费数周的时间,而搭建一个过程流只需要几分钟时间。这极大地提高了工作效率,而且让数据分析人员将精力放在更有意义的业务理解上。一个处理流程往往是从数据节点开始的,经过一系列的数据清洗、修改、转化、建模、评估、比较等操作,最终输出模型打分。不同建模方式有不同处理流程的拓扑结构,俗话说“像不像三分样”,上升到哲学角度则是结构决定功能。这方面内容会在后续章节中详细讲解,读者需要对不同模型的流程有一个深入的了解。这也是数据挖掘初学者一定要从图形界面的数据挖掘工具入门的原因。
·节点:提供了每个数据挖掘流程中的不同工序。
·SEMMA工具控制板:这里提供了丰富的建模用节点。有的节点比较简单,如数据分区节点只对应了Proc Surveyselect过程,而评分节点则对应了完成该任务的宏程序。每个节点的使用说明请参见附录。
下面介绍新建流程图的操作。
在项目面板中右击“流程图”选项,选择“创建流程图”命令,在弹出的对话框中输入流程图名称,如图1-27所示。
图1-27 创建流程图操作