如何保证你的数据是真实的??
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。 neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。 neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。 neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。 neao 发表于 2014-12-23 05:29 static/image/common/back.gif
如何保证你的数据是真实的??
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人,别人肯定会或多或少的为了某些原因去污染数据。最后的结果就是你拿到一堆污染的数据,更不要说建模和时间轴的关系。。。 黎明の瞳 发表于 2015-1-28 14:28 static/image/common/back.gif
哈哈。这才是亮点。人人都说大数据,可是最大的问题就是如何保证手上的数据是干净的?你的数据来自于别人 ...
数据 有污染 我个人感觉是必然,就像图像还原技术, 信号抗干扰技术一样;
清洗数据 本身就是数据挖掘的前提吧!
现在是一个信息泛滥的社会, 因此选择数据,清洗数据,然后才是利用数据。 本帖最后由 乌鸦 于 2015-5-1 09:13 编辑
数据分析本质上就是对人的分析,因为数据是人产生的。
人类产生的直观数据是最真实,最纯净,最有价值的。
用股票做比方,指标数据是计算后的二手数据,而通过数据分析方法,分析挖掘指标数据就成了三手数据。
寻找价值数据的方法,就是把人剖析开来,从人的每个特点出发就寻找该特点生成出来的数据。 本帖最后由 乌鸦 于 2015-5-1 09:20 编辑
在比如,今天放假了,很多人都会起得晚,这个结果对各种现象将会有什么影响。
这不就是蝴蝶效应么。
挖掘数据的根源是挖掘人的群体性行为。 我感觉大数据目前对个人来说没什么实际用处,你如果想做大数据方面的工作,可以考虑帮数据库清洗数据,这个我感觉是个人可以做到的。 ionpick 发表于 2015-5-2 09:55 static/image/common/back.gif
我感觉大数据目前对个人来说没什么实际用处,你如果想做大数据方面的工作,可以考虑帮数据库清洗数据,这个 ...
最近打算 先在业余时间 用Python 多找一些爬虫模型 随意爬一些数据看一看;
多看一些爬虫例子程序,如果在这个过程中 有些原始数据有趣 就保存在自家硬盘上;
现在硬盘也不贵,T级别也花不了几个钱。 本帖最后由 黎明の瞳 于 2015-7-29 20:43 编辑
lijiuliang 发表于 2015-6-16 15:43 static/image/common/back.gif
最近打算 先在业余时间 用Python 多找一些爬虫模型 随意爬一些数据看一看;
多看一些爬虫例子程序,如 ...
好心提醒。现在大数据就是一个框,什么故事都往里面装。数理分析的理论无非统计学和挖掘理论。而且数据挖掘理论很多都是来自于统计学,本身很大的缺陷就是不稳定。最常说的聚类分析,极其恶心之处在于很不稳定。同样的事情,回归分析的结论远远比聚类分析得出来的结论稳定。只要有1%的数据发生变动,聚类的结果就可以差之千里。还有,国内的大数据完全处于吹牛逼阶段,最最理想的不过是开始搭建数据库,就是补当年云计算吹牛逼留下来的窟窿。 黎明の瞳 发表于 2015-7-25 18:03 static/image/common/back.gif
好心提醒。现在大数据就是一个框,什么故事都往里面装。数理分析的理论无非统计学和挖掘理论。而且数据挖 ...
赞同。
谈论大数据最起码要有概率论与数理统计、认知心理学、离散数学等相关知识,否则连纸上谈兵都谈不上。
说白了吧,葡萄在忽悠人。
页:
1
[2]