汽车维修后市场数据仓库的设计与探索
摘 要:
随着数据库技术的不断成熟,数据仓库已经得到了广泛的使用。,数据仓库已经能满足决策者的各种需求,并成为了当今企业中的应用主流。在当前企业信息量不断迅速增长的条件下,基于数据仓库技术的综合系统,是实现海量数据的有效分析,辅助企业高层管理者进行高效分析决策的较佳方案。
对于汽车维修这个庞大的数据市场,本文将使用数据仓库技术来为新进入此市场的投资者提供高效、准确的市场分析。
关键词:数据仓库,维度,联机分析处理,数据挖掘
1. 引言
随着当今世界进入信息爆炸的时代,人们对数据的需求越来越庞大和复杂,并且对数据的质量也提出更高要求。来者不拒的日子已经过去了,信息的针对性要求越发的准确,而更为重要的是人们需要信息能够“智能化”起来,数据信息能先人们一步为人们去分析和考虑。
这一切的要求也就促使了数据仓库技术的崛起,数据仓库已经是数据库之后,对数据搜集,存储,处理,反馈等操作的新的工具。
数据仓库,作为近些年来在数据分析中最为流行的方法之一,在企业决策的制定中已经起到举足轻重的作用。它的成功不仅在于它在硬件和软件方面的先进的技术,更是在于他的先进的数据分析的理念。从理论上的论述和模拟软件的实现,都始终体现着其中心设计思想--即把收集的数据转换变成有意义的,可用在分析的报表,图解等的决策信息。
2. 数据仓库的组成
数据仓库是一个动态的概念,它的根本任务是把数据加以整理,并提供给相应的管理决策人员,供他们做出改善其业务经营的决策[1][2],原理图如图1 所示。
2.1 数据仓库中的数据库:
数据库是整个数据仓库环境的核心,是数据存放的地方和提供数据检索的支持。相对操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
2.2 数据抽取工具:
把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。
对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序和SQL语句等,以访问不同的数据。
2.3 元数据:
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源头数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表。
2.4 访问工具:
为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具[3]。
OLAP是其中很重要的一部分,它对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。OLAP是针对特定问题的联机数据访问和分析,它通过快速、一致、交互地访问各种可能的信息视图,帮助分析人员、管理人员、决策人员洞察数据的奥秘,掌握隐藏于其中的规律。OLAP力图处理数据仓库中浩如烟海的数据,并将之转化为有用的信息。
2.5 数据集市:
很多人往往把数据仓库和数据集市混淆了。数据集市也是当前非常热门的一个术语,一种比较常见的误解是,认为它与数据仓库的差别只是数据量的大小而已。事实上,数据仓库是整体的,能为整体的运行提供决策支持手段: 而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
2.6 数据仓库管理:
安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
2.7 信息发布系统:
把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web 的信息发布系统是对付多用户访问的最有效方法。
3. 汽车维修后市场数据仓库的系统分析
3.1数据流程图的设计
以下这两张数据流程图记录了各个分析角度所运用的数据从开始到最后的终端的一系列过程[4][5]。
“各公司市场经营分析”,如图2 所示,这是系统中第一条主线,许多的数据和最后的报表分析和图都是依据它来建立的,所以它的数据流向对整体的市场分析十分的关键。
从图中可以容易的看出,从原始数据的进入,到分析与图表的输出,其中数据分析最为关键的就是从各角度分类的去分析。这是整个数据处理的关键“各省份的店面分析”是系统中另第一条主线,从全国的大范围来分析全国汽车维修市场的情况,如图3 所示。图中从运营数据,人力,地理省份这三个角度去分析全国汽车维修的数据流向情况。
3.2结构设计
在整个设计中结构设计最为重要,它的设计主导了整个软件设计的主题与方向。图4是总体结构设计图。
在以上的整体的系统的结构图中,以下三个是整个系统中的重点,分别是数据输入输出部分,分析工具部分和图表工具部分(如图5 所示)。
3.3关系设计
最为实际的就是数据仓库中表格的设计,针对一个方面的决策,就应该有一个有针对格式,布局的表格去对应和阐述这些数据。而且也是按照由低向高的层次进行表格设计。
在巨大的公司数据仓库中我们选择了所有在中国全年营业额最大的汽车快修联盟公司来研究。首先根据他们在各个省份加盟店的数量建立一个全国数量分布的表格,其中列了14 个维度去展现这个市场。
作为投资的话,人力的成本其实是最为重要的衡量成本高低一个因素,我们从一个全国人力报表中抽取了汽车服务行业的收入,它是按照省份来进行的分类。从中可以一目了然汽车服务行业全国的工资水平分布和差异,这对决策者的投资成本估算有着十分重要的影响。
每个汽车维修店都会有这样5个项目:汽车美容Accessories,快修Quick Service,保养Maintain, 钣金 Body/喷漆Print,大修Repair。这5 个维也提供了最好的参考,到底现在各个汽修店都在从事哪些项目,并从中可以分析出到底哪个才是最有利益的项目。
3.4图表关系
数据仓库的概念中最为关键的也就是用表格与图形让顾客最为清晰的了解他们所需要的信息。
其中,投资与收益(如图6 所示)是整个系统最被用户或是投资者关心的,也是最为敏感的。如果合并起来看,更可以看出一种规律性的趋势。
工资即人力成本是整个投资十分关键的一部分,因为它越高,给投资者的压力就越大。
店面数量也同样十分重要的,因为它表达的是一个地区汽车维修业市场化程度高或者换种说法,表示了一个地区是否有市场潜力的最好的指标。如图7 所示。
不是说工资越高的地方就越不应该投资,也不是说省份店面数量多的就一定值得去投资,所以要以这两者的统一与分开来共同分析到底哪些省份值得投资。
4. 软件的实现
在软件的实现中,前台界面使用VB, 后台数据库使用的是Microsoft SQL Server 2000。
4.1整表显示
整表显示是整个数据仓库以整体表格的形式来体现的。它的作用是使得用户可以最为清晰看到数据仓库的数据内容。它不仅仅是数据,还有图片表格,可以更为直观得把整个数据内容体现在使用者的面前。如图8 所示
4.2数据分析模块
这也是上一章设计中,最为关键的分析部分,它主要以两个主线条,即各公司分析和各省份分析(如图9所示)两个方面来展示。因为其处理的数据都十分的庞大,所以软件中也以两个单独的模块分别显示。
4.3 图表分析
因为图表对数据的解释,比起一般苍白无力的数据更为生动,在此系统中,各个图片受到顶层菜单的控制,可以配合文字更直观地表达市场的趋势和走向(如图10所示)。
5. 结论
一切数据仓库的知识必须在实际的使用例子中去利用和实践,才能更透彻的理解数据仓库的概念。本文从大量的汽车后市场数据中,通过数据仓库等知识的应用,最大程度上地分析出整个市场的数据规律和趋势。