团购、社交媒体、电商;云,O2O,大数据。每个阶段都有热点词。这会儿最热的应该就是"大数据"了。不过,有点滥,有点俗,似乎也有点泡沫化了。不用担心,一般来讲,讲得最厉害的时候,时候还早呢;等到无声无息了,那真是随风潜入夜了。但是,说真的,处于这个风云激荡创业年代的人们,如果能够静下心仔细了解点有关大数据的概念、框架、实质,对于形成所谓的"大数据观",真心有必要,真心有帮助。
市面上如今关于大数据的书,近20种。挑出这三本,是有理由的。不仅单本比较靠谱,讲述得有意思,而且串联起来,竟然有逻辑联系,有互补,好像商量好了似的--首先看巴拉巴西的《爆发》,在一个历史故事的连续讲述中,了解大数据的概念实质;接着看舍恩伯格的《大数据时代》,明白大数据理念和生活工作及思维变革的关系;最后翻翻涂子沛的《大数据》,看美国政府在大数据开放上的进程与反复,算是个案。如果能够基本了解这三本的观点,出门有底气,见人腰杆直,不再被忽悠。
"人生看似杂乱无章,其实有规可寻",巴拉巴西整本书讲述的大数据根本目的,是预测。他甚至有零有整地判断,人类行为93%是可以预测的。打个比方,千百年前人类无法如今天般准确预测天气,以致某些大致预测的行为都被认为是"通神",其实核心在于对天气数据的海量占有和分析能力。但假如全人类的所有基础及行为数据全部被占有全部能分析呢?比如通过智能终端LBS功能采集全部运动轨迹、通过金融系统采集所有支付记录、通过SNS采集所有社会关系和通过邮件、文档、社会视频监控和自我视频监测采集所有言行记录,24小时,每分每秒,一生,全地球70亿人,那会如何?
人往极大和极小处思考哪怕想像的话,一方面头会疼会晕,一方面会因为这种宏大性或穷尽性而恐惧。科幻迷看到上面的描述,,起源就是主角对银河帝国社会未来数千年的发展和危机的宏大预测,导致一系列绵延千百年的基地、第二基地拯救计划。也就是说,"大数据"问题了。
巴拉巴西不是个通俗科幻小说家。他是全球复杂性网络科学领域最前沿的领军科学家,他要传递的不是科幻故事,而是一整套新的理解人类行为时空模式的观念和理论。作者的核心观点,是认为当我们将生活数字化、公式化和模式化的时候,会发现大家都很相似,都具备爆发模式,而且非常规律,看上去随意偶然,其实极易预测--前提自然是占有和分析海量大数据--而在计算机运算能力、网络发展阶段和社交逻辑成熟之前,这些做不到而已。
科学的尽头和哲学、宗教是交融的。因此,巴拉巴西的理论不止是互联网复杂科学的一项探索,本质是一种新历史观的论证,甚至是一种哲学。这么深艰的命题,作者讲述得非常漂亮,十几章节讲述了十字军的一段历史故事,"燃烧的御座",带上烧红的铁王冠;讲述了艺术家哈桑的旅行,因为被安检不断怀疑是恐怖分子,而自愿"自我量化",记录自己所有行踪并不断公布在个人网站,实现个人数据全积累全公开;一张一美元钞票被跟踪被记录所有的轨迹。可以说,这本书整个就在讲故事,这是我最佩服老外科学作者的地方,如此艰涩的话题,我们可以写成只有几个人懂的论文,他可以写成一气呵成的故事集!
转到《大数据时代》这本书。它被包括宽带资本董事长田朔宁、知名IT评论人谢文等专业读者鉴定为"大数据领域最好的著作没有之一,一本顶一万本"。有这么好吗?看完自己评价吧。这本书对这个大规模产生、分享和应用数据的新的大时代进行了阐述和厘清,作者围绕"要全体不要抽样、要效率不要绝对精确、要相关不要因果"三大理念,通过数十个商业和学术案例,剖析了万事万物数据化和数据复用挖掘的巨大价值。
如作者所言"大数据开启了一次重大时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们看清微生物一样,大数据要改变的是,我们的生活方方面面以及理解世界的方式"。比如,谷歌通过全球搜索分析,比国际疾病控防中心更早更准地预测了流感爆发。
在思维变革部分,作者讲述的重点是:样本=总体,我们需要对全部数据的占有和分析;因此,数据缺乏时代的精确性不必执迷,接受混杂基于大数据的简单算法比小数据的复杂算法更有效;样本推断的因果关系不重要了,知道"是什么"的相关关系,或者结果就可以了。如果说上一本《爆发》是通过讲故事阐述一个核心观点的话,这一本倒是不遗余力、不计巨细就大数据的方方面面进行系统分析和介绍,而且案例非常精彩非常时新。所以,个人觉得,就实务而言,这本的裨益确实比较大。
涂子沛那本冠以《大数据》名字的书,我是在三星NOTE上完整看完的第一本手机电子书。全书讲述的,是大数据在美国政府管理中的应用,以及美国政府运行方式大数据变革的历史与斗争,其实也是故事性的。从奥巴马上台就颁布《信息公开法案》,到设立第一个美国政府首席信息官开始,讲述美国政府与民间在社会数据公开的斗争史,以及美国社会管理向大数据思维转变的过程。首先,这算是一个最详实的案例;其次,这代表的不是某种管理方式变革,深处是对民主运行机制的变革与进步。说好了,这本书用心良苦,远远超越科普技术领域;说坏了,其心可诛。有一段,民间斗争,逼迫奥巴马公布所有每日白宫全部日程,包括接见了谁、谈话的全部内容,这不就是个人大数据全公开在公众人物上的应用吗?这可比现在所谓官员公开财产的要求高了几十倍--这要求政府全部行为、全部数据、全部公开,全体公众随时可查--技术和成本上其实已经可以做到或至少努力接近--如果不这么做,不止是落后问题而是真正的其心可诛了。
三本书,延续观点--实务--案例分析的路径,全景展示了大数据这个东西。但重要的是,大数据是个概念,是个趋势,更是一种"观",看世界、看未来的一种方法。我们可以拒绝那些言必称大数据的人的浮躁,但绝对不能拒绝世界潮流的确定走向。而就企业而言,包括全球的谷歌、苹果、FACEBOOK等互联网巨头,沃尔玛、塔吉特、亚马逊等零售巨头,中国的BAT三巨头,早就实质上已经是大数据玩家,并且狂奔在大数据潮流上很久,而其他叫唤"大数据"的其实连基本资格都没有--叫的狗不咬人。可以说,除了巨头,所有其他家伙都跟大数据沾不上实质的边,只有打打下手的机会;但实际上,每个企业,甚至个人,都已经是大数据的一部分、一环节了。
数千字难言书中真谛。马上开始你的拯救大数据白痴之旅吧。