黎明の瞳 发表于 2015-1-28 14:28:13

neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??

哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。

黎明の瞳 发表于 2015-1-28 14:28:15

neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??

哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。

黎明の瞳 发表于 2015-1-28 14:28:15

neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??

哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。

黎明の瞳 发表于 2015-1-28 14:28:16

neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??

哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。

黎明の瞳 发表于 2015-1-28 14:28:16

neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??

哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。

lijiuliang 发表于 2015-1-28 20:07:16

黎明の瞳 发表于 2015-1-28 14:28 static/image/common/back.gif
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人 ...

数据 有污染 我个人感觉是必然,就像图像还原技术, 信号抗干扰技术一样;

清洗数据 本身就是数据挖掘的前提吧!

现在是一个信息泛滥的社会, 因此选择数据,清洗数据,然后才是利用数据。

乌鸦 发表于 2015-5-1 09:11:00

本帖最后由 乌鸦 于 2015-5-1 09:13 编辑

数据分析本质上就是对人的分析,因为数据是人产生的。
人类产生的直观数据是最真实,最纯净,最有价值的。
用股票做比方,指标数据是计算后的二手数据,而通过数据分析方法,分析挖掘指标数据就成了三手数据。
寻找价值数据的方法,就是把人剖析开来,从人的每个特点出发就寻找该特点生成出来的数据。

乌鸦 发表于 2015-5-1 09:17:12

本帖最后由 乌鸦 于 2015-5-1 09:20 编辑

在比如,今天放假了,很多人都会起得晚,这个结果对各种现象将会有什么影响。
这不就是蝴蝶效应么。
挖掘数据的根源是挖掘人的群体性行为。

ionpick 发表于 2015-5-2 09:55:42

我感觉大数据目前对个人来说没什么实际用处,你如果想做大数据方面的工作,可以考虑帮数据库清洗数据,这个我感觉是个人可以做到的。

lijiuliang 发表于 2015-6-16 15:43:08

ionpick 发表于 2015-5-2 09:55 static/image/common/back.gif
我感觉大数据目前对个人来说没什么实际用处,你如果想做大数据方面的工作,可以考虑帮数据库清洗数据,这个 ...

最近打算 先在业余时间 用Python 多找一些爬虫模型 随意爬一些数据看一看;

多看一些爬虫例子程序,如果在这个过程中 有些原始数据有趣 就保存在自家硬盘上;

现在硬盘也不贵,T级别也花不了几个钱。

黎明の瞳 发表于 2015-7-25 18:03:05

本帖最后由 黎明の瞳 于 2015-7-29 20:43 编辑

lijiuliang 发表于 2015-6-16 15:43 static/image/common/back.gif
最近打算 先在业余时间 用Python 多找一些爬虫模型 随意爬一些数据看一看;

多看一些爬虫例子程序,如 ...
好心提醒。现在大数据就是一个框,什么故事都往里面装。数理分析的理论无非统计学和挖掘理论。而且数据挖掘理论很多都是来自于统计学,本身很大的缺陷就是不稳定。最常说的聚类分析,极其恶心之处在于很不稳定。同样的事情,回归分析的结论远远比聚类分析得出来的结论稳定。只要有1%的数据发生变动,聚类的结果就可以差之千里。还有,国内的大数据完全处于吹牛逼阶段,最最理想的不过是开始搭建数据库,就是补当年云计算吹牛逼留下来的窟窿。

loy_20002000 发表于 2015-7-26 17:37:29

黎明の瞳 发表于 2015-7-25 18:03 static/image/common/back.gif
好心提醒。现在大数据就是一个框,什么故事都往里面装。数理分析的理论无非统计学和挖掘理论。而且数据挖 ...

赞同。

谈论大数据最起码要有概率论与数理统计、认知心理学、离散数学等相关知识,否则连纸上谈兵都谈不上。

说白了吧,葡萄在忽悠人。
页: 1 [2]
查看完整版本: 作为个人 应该如何去利用大数据?