大数据与数据挖掘及数据仓库
缘由:今晚加班,在回家的路上看了条微博,说到:“互联网思维”与“物联网”是一样的概念,在转发的人当中有人提及:类似的还有大数据,还有人补充:上个世纪末,就风靡数据仓库和数据挖掘了。正好元旦之前出差,我把葡萄兄推荐的《大数据时代》(作者:维克托·迈尔·舍恩伯格)看完了,囫囵吞枣滴(这本书我已经共享在茶馆的QQ群了,其实网上都有)。对葡萄兄在讨论中提及大数据可能导致的一些变化有初步了解,胡思乱想的把这些变化具体到我所在的行业当中,觉得确实影响不一般,从我自己的工作出发对有些问题还没想明白,如同在想3D打印对我所在行业的影响一样,因而有个念头——梳理一下自己对大数据的认识,主要是《大数据时代》的读后感,请大家指正。而前面提到的那条微博勾起了我的回忆,想当年在大学里我还是看了点数据仓库的书,虽然很可耻的半途而废。那不如把数据仓库、数据挖掘和大数据对比来看看有什么异同。
声明:本人文笔不好,肚中无料,属于现学现卖,还请多多包涵!!!资料都是找度娘要来的,数据仓库的书要周末回家找找。
一、定义
(1)数据仓库
由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
(2)数据挖掘(Data Mining,DM)
又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。
数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(3)大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。
今天先把一些概念贴出来,后面继续,因为没有实际做过数据库的工作,还请各位高手多指导。
坐沙发听讲。:lol 我站在一个初学者的角度谈一下我的看法,其实不光是对大数据,对所有的技术我都是这个态度,我一般情况下只会在具备以下条件的时候才会去关注一项技术
1.完整的理论体系,只有你从原理上理解了一项技术之后,你才有机会去适应各种具体变换的环境,能够灵活的进行处理
2.需要有一个客观存在的或者说明确的应用领域,搞会了之后,要能赚钱,没钱,什么都维持不下去
3.有一个典型的应用实例,这个主要是为了上述第一点服务的,因为,没有一个具体的例子,我很难搞懂他的原理和应用,没办法,人比较笨,脑子不够灵活
4.有一个完整的生态链,现如今,单打独斗是没有前途的,其实从生态链的伙伴,也可以看出一点这项技术的端倪。
暂时想到的就这么多,办个板凳,继续听课。 伊贺双刀流 发表于 2014-1-14 08:24 static/image/common/back.gif
坐沙发听讲。
相互学习,我也是小白啊 齐的隆冬强 发表于 2014-1-14 09:21 static/image/common/back.gif
我站在一个初学者的角度谈一下我的看法,其实不光是对大数据,对所有的技术我都是这个态度,我一般情况下只 ...
相互学习,我也是小白啊。感觉你思考的比我深,我就献丑了 个人感觉:数据库、数据挖掘、大数据是一个发展的过程,现在讲的大数据讲的是关联,而不是因果,这就从认识方面开了另外一道门。 数据支持决策有一个前提,对数据足够敏感,撇除大路货数据,从一堆数据中找到细小、却预示着趋势的那一个。 玩钉耙的悟空 发表于 2014-1-15 22:41 static/image/common/back.gif
数据支持决策有一个前提,对数据足够敏感,撇除大路货数据,从一堆数据中找到细小、却预示着趋势的那一个。
除了少数几个互联网公司,大数据现在还处于吹牛阶段。
大数据实现有两大难点,第一是如何设计大数据逻辑模型,这需要大师兄说的对需要对数据敏感,对业务因果理解非常透彻的人来主持;第二是如何收集所有数据,运营商就是个典型的例子,各种数据分散在各部门、各省级公司,要将这些数据收集起来就是要了这些诸侯的命,难度可想而知。 znxf 发表于 2014-1-16 09:43 static/image/common/back.gif
除了少数几个互联网公司,大数据现在还处于吹牛阶段。
大数据实现有两大难点,第一是如何设计大数据逻辑 ...
其实还应该再加一句,就算有,你也未必能得的到。造波音飞机的技术要是存在的。造的出来吗? znxf 发表于 2014-1-16 09:43 static/image/common/back.gif
除了少数几个互联网公司,大数据现在还处于吹牛阶段。
大数据实现有两大难点,第一是如何设计大数据逻辑 ...
业内行家,说得透彻{:4_279:}
除了少数几个互联网公司,大数据现在还处于吹牛阶段
能不能科普一下,“少数几个互联网公司”正在怎样挖掘大数据这个矿 玩钉耙的悟空 发表于 2014-1-17 13:29 static/image/common/back.gif
业内行家,说得透彻
多谢大师兄夸奖,谈不上行家,最多算是业内人士,举个非常简单的案例供大师兄参考。
商业银行小微企业贷款发展很难,主要原因是调研成本太高,无法获取小微企业的真实信用情况。如果面馆到银行申请贷款想开家分店,银行总不能派个人天天蹲在面馆门口数顾客吧。但类似的问题淘宝就很容易解决,交易通过淘宝平台完成,支付通过支付宝平台支付,再弄个模型计算商户的信用额度就是很容易的事情,因此淘宝开展小微贷款业务的成本比传统商业银行低了很多。通过淘宝和支付宝平台收集的数据,淘宝对用户行为分析还有很多,就不一一列举了。
大数据挖掘过程和能否成功因素就两个:第一是如何获取数据,第二是如何分析数据,第一个因素比第二个更为关键,相对于懂业务模型的脑袋,数据是更加稀缺的资源。互联网公司的基因和业务模式,使得他们在进行大数据挖掘具有先天的优势。 znxf 发表于 2014-1-17 14:47 static/image/common/back.gif
多谢大师兄夸奖,谈不上行家,最多算是业内人士,举个非常简单的案例供大师兄参考。
商业银行小微企业贷 ...
zn兄专业,我外行中外行,瞎侃一下。
数据要有针对性,围绕指针收集才有效率,也更少垃圾信息干扰。
淘宝抓住资金流这个指针,在这个基础上配合商品流等指标,计算商家的规模、效率,核心优势是快速反应商家当期、短期内的表现。
如果拉长时间,不一定准,这种方法不能评价商家这个人的综合能力,而人的综合能力才是基业长青的核心因素,所以大数据还需要其他评价体系的配合。 2013年火热的众筹P2P如果跟个人信用系统挂钩,那风险控制的难度将大大降低,不过这样的话收益率也会下降。 大数据应用的一个例子,亚马逊开发新技术:未购买 先发货
通过数据分析,预测用户将要购买的东西,提前发货。
玩钉耙的悟空 发表于 2014-1-17 17:29 static/image/common/back.gif
zn兄专业,我外行中外行,瞎侃一下。
数据要有针对性,围绕指针收集才有效率,也更少垃圾信息干扰。
关于数据收集,相对于数据本身的价值,采购存储数据所需介质的价格是很便宜的,现在看似没用的数据没准哪天就有用了,再使用定期归档,数据压缩等技术手段,数据存的是多多益善。
有些做大数据分析的公司,比如淘宝,数据多是现成的,无非就是怎么弄个模型来分析的问题;而另外公司,比如做搜索的google,实际上也可以认为是大数据公司,做一次搜索实际就是进行一次大数据分析,他们提高效率的方法主要是通过优化算法来实现的,大师兄如果有兴趣可以看看《数学之美》这本书,就会对搜索的机制有个简单了解。
快速反应商家当期、短期内表现可以在分析模型中加入权重,比如一个月的销售额权重高,一年的销售额的权重相对低来实现。
所有基于历史数据的分析都是做决策的重要参考,当然也要根据实际情况灵活分析,必经数据是死的,人是活的。 znxf 发表于 2014-1-19 01:01 static/image/common/back.gif
关于数据收集,相对于数据本身的价值,采购存储数据所需介质的价格是很便宜的,现在看似没用的数据没准哪 ...
谢谢提供书籍,已经下载,抽空学习。
现在大数据概念横飞,zn兄专业,能否写个帖子,科普一下这方面的基本常识?
页:
[1]