遭数据迷糊了

tnq 发表于 2015-7-27 11:40:38

偶尔看到了知呼上的一篇文章（http://www.zhihu.com/question/31857944/answer/56409546），《上海的消费到底有多高》，一个妹子谈朋友，男友给买衣服，买包包，吃饭，开房的价格统计，本来妹子觉得人生索然无味，兴趣全无，经大数据一分析，哇，你男朋友的消费水平都位列当日消费的上海市10%以内，结局是:

看完这个结果，学姐显得非常喜悦。她握着我的手，兴奋地说：小团，谢谢你，通过这次的分析。我想这次，我终于可以下定决心了。

结果话锋一转：看来，这次学姐选定的男友在开房方面十分给力。我看着学姐幸福离去的背影，也深深地为她祝福。但忽然之间，却忍不住想到了一个更深刻的问题：在2015年学姐生日当天，上海市一共发生了约280万笔消费，金额共计约56亿元。而其中“买买吃吃睡睡”的总消费，仅有约2.4亿而已，只占总消费金额的4%。

文章最后的总结：在衣食住行的日常花销当中，无论你勤俭节约精打细算，还是挥金如土一掷千金，甚至可以在上海滩消费榜上名列前茅，这些也只是整个城市级消费中毫不起眼的一笔，并不能代表更多的意义。所以，真正有价值的消费，既不是日常流水，也不是声色犬马。那是什么呢？是投资。当然，投资并不是消费；但从目的上说，投资是为了获得收益，能够在未来更多地消费。同样是花钱，用作投资将比现时消费更有价值。投资金融，投资事业，投资房地产，投资教育，包括投资自己。只有投资，才会让未来的自己变的更富有、更自信或者更强大。这一点无论对于个人还是城市，都毫无例外。
我个人的看法：
（1）这个例子只所以有趣，是因为和大数据分析是非常吻合的，一个人当天的消费占比的实时数据多少都可以及时反映出来，不得不说很神奇，你的消费在哪个位置，可以令你小小的激动和优越感，hight过后，其实想想这有算什么呢？

（2）如果这样找男朋友，那带到阴沟里面去的概率是很大的，如果你顺着这种大数据分析的思路“迷信科学”也很容易把自己带到阴沟里面去，这就是日常生产中，很多数据一计算，很好，满足，但是关键点在哪里有时候还忽视了。

（3）真正的实力是一个家庭或者家族背后的实力和一个人潜在的能力，不是他的消费能力，虽然消费能力也能反映一部分，我见过很多富豪其实消费低调得很，街边小店都津津有味，不怎么富裕的确非常大气，看一个人小气与否，不能看他的消费，这个和消费本质无关。

（4）刚毕业出来的时候，因为自己的计算好，沉迷于计算，做事情总觉得算好了就放心了，其实这是一种知识狭隘的表现，因为自己懂得不多造成的，一件工作要了解的东西非常多，有理论与实践的差异，有业主要求的差异，有专业配合的差异，自己认为的完美，往往是最不完美的。当然算得好也是一种能力，不能否认，而且有必要在学习阶段训练好。

（5）香港的青马大桥，据说当时很有钱也很时髦，进行全运营阶段桥梁截面应力监测，一年不久，数据就占了一个房间，这种数据有意义吗？好像有，也好像意义不大，你抓不住主要节点，这些数据就是迷宫，进得出，不一定出得来。

（6）最近工程界推的“达索的BIM的解决方案”也是一个列子，把所有的关键工作点进度都实时传递给数据决策中心，达到共同协作的，这套系统更接近计划经济，对应大的系统来说，其实也挺好的，对于一般的小工程，其实工程造价还不如他的卖价格或者上报系统浪费的资金。

（7）说来说去，大数据好像更多的是一种管理手段的帮助，当然个人的一生也是一种资源的管理，所以大数据对社会的影响是全方位的，怎么取舍，还要有判断力还执行。

loy_20002000 发表于 2015-7-27 16:12:11

不知道大数据是什么东西，说一些自己的看法。

1）社会媒体对数据的引用经常扭曲关键要素。假设美国公民被抢劫的概率是2%，被狗咬的概率是5%，得出结论任何一个人不怕狗就不用怕劫匪，因为概率上讲被抢劫的概率低于被狗咬。但是这种分析没有考虑概率的分布情况，假设华盛顿被抢劫的概率是1%，底特律却是20%，那么低分辨率的信息就是误导性的，所以谈论概率问题必须要涉及分布的具体情况，否则就是以全概偏。以全概偏、以偏概全、偷换概念是统计数据误导的常见方式。以偏概全的例子有CPI，假设CPI下降，单纯看这一个数据居民消费物价水平是下降的，但CPI不统计投资，而房屋消费是投资。偷换概念最常见的方式是用名义GDP偷换国内经济总量，而两者是不同的概念。

2）相关性与因果性的混淆不清。假设某地冰淇淋消费增长则性犯罪活动增加，冰淇淋消费下降则性犯罪活动下降，两者似乎高度相关，这是相关性。而因果性是天气炎热所以女性穿着暴露，进而刺激了男性导致犯罪，由于炎热所以冰淇淋消费增长，反之亦然。相关性只有启发的意义，不能作为结论看待；而因果性是实验与理论共同作用的结果。

3）个人有选择性注意与记忆的倾向，这是偏见产生的根源。

1.社会心理学有一个结论：基本归因错误。即当注意到某个人的行为时会选择性的忽略环境的作用，将行为归结为人格特征而忽略环境的作用。这就是选择性注意。按照赫伯特-西蒙的观点人在有意识认知时意识以内部分是串行的，并且处理能力有限，所以只能对有限的内容进行处理，所以会优先分析人，然后分析环境的作用。例如某个年轻人正在打一个老人，大部分人的第一反应是降低对年轻人的评价，同情老人，而忽视环境的作用与事情的经过，事情的经过可能是老人毒打了年轻人的孩子。自我服务偏见、虚假一致性效应、群体极化都是选择性注意的例子。

2.人的记忆写入分三个步骤。1）感知记忆阶段；2）短时记忆阶段；3）长时记忆阶段。感知记忆阶段获取感觉的具体信息，然后将信息的主要部分保留，细节部分去除进入短时记忆阶段，短时记忆阶段对信息进行分析处理得出抽象化的表征进入长时记忆。长时记忆经常被提取或被理论化将会形成图式。记忆的分阶段存储就是抽象性逐渐提升，具体性逐渐下降的过程。如果说感知记忆阶段的某个视觉图像是高精度数码相机形成的图像，那么图式只是简单的几何图形。记忆的精度下降以进化的角度看是有益处的，因为抽象化的过程可以帮助人类抓住主要信息去除无用的“噪音”干扰。记忆的错误通常出现在读取阶段。记忆的抽象性导致提取时会出现主动的记忆填充或篡改。当仅保留主干时会通过填充得到完整的树木，当记忆与主观逻辑或者说主观意愿冲突时会通过记忆的篡改以符合逻辑的要求。所以人的记忆是不可靠的，众多的实验已经表明人的记忆可以被篡改、引导。

3.人的认知是选择性处理的结果，所以只要是人就一定会有偏见。当处理某个信息时人会通过与经验图式比较分析信息，但经验图式是抽象的不完整的，所以任何分析都是片面的，不会是全面的（赫伯特-西蒙提出“有限理性”的概念以区分“绝对理性”，他认为企业管理者只能得到满意解，不可能得到最优解）。

4.信息偏见化普遍存在于个人认知中。信息偏见化是由信息碎片化产生的，即只得到整体的部分信息，进而产生错误的认知。例如阈下暗示的误解。在一部电影中插入1/300秒的可口可乐广告会诱导观看者购买可口可乐吗？大量实验证明阈下暗示是不存在的。

注销ID 发表于 2015-7-28 10:02:16

它那个开房数据是全上海的，怎么统计出哪些是商务、哪些是旅游、哪些才是真正的带着女朋友开房啪啪啪？

tnq 发表于 2015-7-28 12:01:11

克罗地亚狂想曲发表于 2015-7-28 10:02 static/image/common/back.gif
它那个开房数据是全上海的，怎么统计出哪些是商务、哪些是旅游、哪些才是真正的带着女朋友开房啪啪啪？

呵呵，这个肯定也可以吗，不过你觉得一般开房的比得过因公商务费用吗？再这样就完全没有隐私啦{:4_238:}

黎明の瞳 发表于 2015-7-29 21:06:59

本身问题出在作者口中的学姐身上。说白了，建模有问题。所谓重收集轻分析。她想知道现任男友在上海的水平，结果选取的模型都是吃吃吃喝喝喝买买买啪啪啪。大数据鼓吹数据量大未必是好事。数据量过大就会导致噪音过多，即所谓的边界效应，数据量过大未必等于价值很高。再说具体一点，数据分析里面肯定要遇到筛选数据，缺失值怎么处理？虽然常见的方法用平均数、中位数、分位数、众数或者干脆取0来代替，但是这些方法本身就容易引入新的噪音。你的数据越多，越容易出现大量的缺失值，这会搞的你很尴尬。同理，异常值也是一件蛋疼的事情。

页: [1]

茶馆's Archiver

遭数据迷糊了