大数据的前世今生——大数据的过去、现在与未来-拂晓晨星的专栏

大数据的前世今生——大数据的过去、现在与未来

2018-09-21 10:04:54栏目：文化争鸣 IP属地：IP未知

0
0
2088
0

在4G移动网络社会，没有人能够逃脱大数据对你如影随形的跟踪，不管你是否意识到了、也不管你是否愿意，大数据就在那里，包裹着你、挟持着你、无时不刻影响着你，而你却对大数据知之甚少；唯有认识大数据、了解大数据、掌握大数据，才能让你在大数据的海洋中不至迷失自我。

一．引子——机器翻译

2018年8月11日，科大讯飞“晓译智能翻译机”在CCTV《机智过人》科技挑战节目中成功入选2018“智能先锋”，标志着我国的人工智能（机器）翻译达到了一个全新的水平。

机器翻译就是目前炙手可热的大数据技术的一个典型范例。

机器翻译始于1933年，前苏联科学家Peter Troyanskii向苏联科学院提出了一种能将一种语言翻译成另一种语言的机器。

真正实现机器翻译是1954年，纽约的IBM总部进行的Georgetown–IBM实验，IBM 701计算机完成了史上首例机器翻译，自动将60个俄语句子翻译成了英语。随后，加拿大、德国、法国与日本都很快参与到机器翻译的科技竞赛中来。1957年，中国科学院语言研究所与计算技术研究所也合作开展了机器翻译的研究，并取得了一定的成功。

上个世纪五六十年代机器翻译进入比较乐观的繁荣期。

早期的机器翻译采用的是“直接对应翻译”的方式，以英汉翻译为例：首先教给计算机一部英汉字典，让它知道每个英文单词所对应的中文意思（比如“What”→“什么”，“is”→“（第三人称单数）是”，“your”→“你的”，“name”→“名字”），这很容易；然后再教给计算机一套英语语法规则（什么第一人称、第二人称、第三人称、……，什么单数、复数、主格、宾格、……，什么过去时、现在时、过去式、……），知道了单词、知道了语法，计算机就可以进行翻译了（比如“What is your name?”→“你叫什么名字？”）。

这种“直接对应”的翻译太过机械、呆板，不能应对自然语言中千变万化的场景（比如，它可能会将“May I have your name?”翻译成“我可以有你的名字吗？”；一般来说，人工翻译就不会出现这种低级的错误；但机器就不行，机器只能按照预先设定的“直接对应”的法则去做）。

按照这样的“小数据思维”的思路，机器翻译的准确率远远达不到实用的程度，所以，美国科学院的一个专门委员会于1966年公布了一个报告，全面否定了机器翻译的可行性，并建议停止对机器翻译的资金支持。这份报告给了正在蓬勃发展的机器翻译当头一棒，致使机器翻译研究陷入了近乎停滞的状态。

上世纪末本世纪初，由于互联网的飞速发展、大数据技术的开发与应用，机器翻译迎来了一个全新的机遇，——人工智能翻译抛弃了“直接对应”的“小数据思维”，而代之以计算机“深度学习”的“大数据思维”。

我们知道：人类在自然交流的情况下的语言学习（比如小孩子学说话），并不是先学单词、再学语法，然后再按语法规则来构建语言的，而是“场景式”的、“浸入式”的、“练习式”的、“反复式”的，通过大量的对话、交互、纠错等实践来获得语言技能。

目前最有效的机器翻译是基于“深度神经网络学习”的NMT智能翻译，——仿照人类在自然交流的情况下的语言学习过程，通过“场景式”、“浸入式”、“练习式”、“反复式”训练建立词汇与语意的概率性联结，最终形成动态的智能翻译系统。

现在的计算机运行速度极快，计算机深度学习的训练量与反复的次数是常人难以想象的（从“深度学习”的角度来说，每一个智能翻译机的拥有者都是机器翻译的老师，他们共同教会了机器如何去进行翻译），小孩子从牙牙学语到能够自如表达，通常需要七八年甚至十来年功夫，计算机只要几个小时甚至几分钟就可以完成这个过程！目前，靠“深度学习”，“智能翻译机”英汉対译的准确率达到了百分之九十九点几。

我们知道，智能翻译机有两种工作模式，——一种叫“在线翻译”模式，另一种叫“离线翻译”模式。“在线翻译”也是目前翻译得比较准确的一种模式：在这种模式下，你的翻译机必须通过Wifi或者4G移动网络连接到“智能翻译中心”，——那里有一组计算机工作组（Computer Work Group），通常称为“云端”或“云脑”，相当于人工智能翻译的“大脑”，你手上的翻译机的“翻译”实际上是通过千里之外的“云端”的那个“云脑”来实现的；“在线翻译”的模式下，你手上的翻译机仅仅只起到了一个“通讯”或者说“传输”的作用：……。

如果你我各有一部“讯飞智能翻译机”，同时进行英汉翻译，它们在“云端”是共用同一个“云脑”还是两个不同的“云脑”？

作为人脑来说，假如你我两个人都懂英语与汉语，我们两个人同时进行英汉翻译，使用的显然是每个人各自的大脑，也就是两个完全不同的大脑。

作为智能翻译机，以“讯飞智能翻译机”为例，各种型号的包括1.0、2.0、“晓译”系列，以及“讯飞随身译”（科大讯飞提供的在线翻译APP），少说也有几百万个客户端。这几百万个客户端通过网络所连接的“云脑”只有一个，所有在线的客户端（至少成千上万）每时每刻都与“云端”唯一一个“云脑”进行着频繁的数据交换；不要以为这些数据交换“转瞬即逝”，恰恰相反，每一次的数据交换对于人工智能翻译的“云脑”来说都是一次实践的机会、也是一次学习的机会、更是一次经验积累的机会。大家可以想象一下，整个过程，有多少数据在传输、在变换、在储存、在积累！

二．手机带我们走进大数据世界

如果我们觉得人工智能翻译与我们的日常生活关系还不大，那么，就请看一看我们的手机。在中国大陆，手机几乎人手一部，与每个人都息息相关。

不管你是否已经意识到、也不管你是否愿意，事实上我们都被我们的手机绑架、挟持进入了“大数据世界”与“大数据时代”。手机通过移动互联网捆住了地球村上的几乎每一个人，在人与人之间拉起了一根又一根无形的绳索，编织成一副包罗万象的天罗地网，只需分配一个手机号码、开通一部手机，我们就能迅速联系上地球上的每一个人。

更为恐怖的是，我们完全可以掌握这些手机的主人都是谁？都在干什么？手机在使用过程会留下很多“痕迹”，——通话的对象与内容、浏览的网页、搜索的词汇、阅读的新闻、观赏的视频、发表、转发或下载的文章与图片、接收或发送的电子邮件、关注的朋友、消费的支付、购买的商品、位置的移动、甚至点赞或打赏、……，4G移动网络时代，一个普通的智能手机用户平均每天大约产生200M的数据（相当于13部《红楼梦》的信息量），通过分析这些数据，可以对手机主人的年龄、性格、喜好、情绪、习惯、宗教信仰、受教育程度、文化修养、财务状况、健康状况、家庭情况、社交情况等等了如指掌！

当然，手机并非洪水猛兽，它首先带给我们的是种种便利与创新：

手机是人的感官与智能的延伸（听觉、视觉、语言、社交、搜索、方位、写作、艺术创作、……）：借助手机，人们不但实现了“顺风耳”、“千里眼”，而且人们的语言能力、社交能力、艺术创作的能力也都有了“跨越式”发展。

手机开创了全新的移动互联网时代（大数据时代）：包括通讯模式、社交模式、阅读模式、学习模式、娱乐模式、传播模式、商业模式与金融模式的变革与创新，……。别的姑且不论，仅支付宝、微信支付以及云闪付等对传统金融模式的变革就是颠覆性的。

手机的本质是什么？说白了，手机不过是手机厂商、通讯公司、各种手机应用APP商家交到用户手中的数据终端（客户端）。每个手机都是一个数据接收器与发射器，是一个源源不断地产生并提供数据的“信息源”，——移动互联网的智能终端，只要人们在使用，不管你想或没想、愿或不愿，它都会收集和发送数据。

拥有一部智能手机只是表象，采集并利用智能手机的数据才是核心。手机永远比我们更进一步，它不但是大数据世界、大数据时代的智能终端，同时还在不断进化。每周都有新的手机上市，手机软件也在不断更新，功能变得更强，平台也更方便，存储信息的空间更大、产生的数据也更多。

手机的智能化程度越高，我们对手机的依赖也就越大，借助手机，我们似乎越来越强；离开手机，我们却几乎一事无成。

三．大数据就是数据大吗？

大数据究竟有多大？

无人驾驶汽车每秒钟大约可产生1GB 的数据（相当于671部红楼梦的信息量），每分钟就是60GB（相当于4026部红楼梦的信息量）；每秒生成1GB 数据，按每年行驶600小时（216万秒）计，每年产生的数据量将达到约2PB（千万亿字节）；无人驾驶汽车积累的数据越多，数据分析的精度也就越高，其智能化程度也就越高，其应用价值也就越大；虽然汽车的机械部分会逐渐老化，最终只能更换；但其智能部分却在不断进化，而且可以移植。

百度云计算（阳泉）中心数据存储量超过4000PB，信息量相当于20多万个中国国家图书馆的藏书总量（中国国家图书馆藏书2631万册）

一天之中，互联网产生的全部内容可以刻满1.68亿张DVD；发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量）；发出的社区帖子高达200万个（相当于《时代》杂志770年的文字量）；卖出的手机为37.8万台，高于全球每天出生的婴儿数量37.1万……

“大数据”并不仅仅就是“数据大”：

大数据具有如下的4V特征：

大数据不仅仅是技术革命，更是思维方式的革命，大数据的关键并不是数据的大小，而是运算与思维方式的变革。

也可以这样说：大数据就是数据大到用传统方法（包括人工方法与单个计算机算法）无法处理、需要用数据科学与云计算能力处理的数据。

“GOOGLE流感预测模型”就是一个很好的例子：

都说“天有不测风云”，可是比天气预报更困难的却是流感爆发的预测！

一般来说，疾控中心在发现与统计流感方面非常滞后，通常人们患了普通流感并不会去医院，往往病重才去，医院也才会采集到相关信息，而这些信息传到疾控中心也需时间，因而通告新流感病例时往往会有一两周的延迟。对于类似H1N1那种飞速传播的致命流感病毒，信息滞后一两周的后果就将非常严重。

互联网巨头谷歌公司每天都会收到来自全球超过 30 亿条的搜索指令，通过收集并分析流感爆发前人们上网的搜索记录，找到了45条与流感爆发相关的关键词组合（很多关键词看上去似乎与“流感”风牛马不相及），并以此建立起了预测流感爆发的数学模型，谷歌的预测与官方数据的相关性高达97%。

2009年甲型H1N1流感再次爆发，谷歌通过分析不同地域用户上网搜索的痕迹，短短几天之内就预测了美国各地流感的爆发趋势，而美国疾控中心用传统抽样调查的方法则需要大量工作人员工作两到三个月时间才能完成同一任务。由于美国疾控中心从谷歌公司提前获得了非常有价值的数据信息，从而有效地预防了甲型H1N1流感在美国的大规模流行。

谷歌公司的方法甚至不需要在人群中分发口腔试纸和联系医生——它是建立在大数据分析（相关关系算法）的基础之上的，是一种全新的思维模式与解决问题的办法。这是当今社会所独有的一种新型能力：以一种前所未有的方式，通过对海量数据进行分析，找出相关关系，来获取数据中蕴含的巨大价值与服务。

四．大数据与人工智能

1946年2月，世界上第一台电子计算机ENIAC在美国诞生。1950年，英国数学家与计算机专家图灵（Turing）发表了一篇划时代的论文，预言了在电子计算机基础上创造出具有（人工）智能的机器的可能性，并提出了著名的图灵测试（Turing Test）：如果一台机器能够与人类展开对话（通过电传设备）而不会被辨别出其机器身份，就可以认为这台机器具有（人工）智能。

1952年，图灵在BBC电台访谈中谈到了一个新的具体想法：让计算机来冒充人类（又称“模仿游戏”），如果超过30%的裁判误以为在和自己交流的是人而非计算机，人工智能就算作成功了。

美国科学家兼慈善家休·罗布纳20世纪90年代初设立人工智能年度比赛，把图灵的设想付诸实践。比赛分为金、银、铜三等奖。

2014年6月8日，一台计算机（或者说仅仅是一个“聊天”电脑程序）成功地让人类相信它是一个来自乌克兰的13岁男孩，成为有史以来首台通过图灵测试的计算机，被认为是人工智能发展的一个里程碑。

2015年11月《Science》杂志封面刊登了一篇重磅研究：人工智能能像人类一样学习，并通过了图灵测试。测试的对象是一种AI系统，研究者进行了展示它未见过的书写系统（例如，藏文）中的一个字符例子，并让它写出同样的字符、创造相似字符等任务。结果表明这个系统能够迅速学会写陌生的文字，同时还能识别出非本质特征（例如那些因书写造成的变异），并通过了图灵测试，这也是人工智能的一大飞跃。

在单一智能（或者说“弱人工智能”）领域，例如计算、逻辑推理、棋艺、……等方面，计算机早就远远超过了人类。以“棋艺”为例：

1962年由计算机技术的先驱者塞缪尔编写的第一款走国际跳棋（Checkers）的程序击败人类玩家；1997年，IBM的一台名叫“深蓝”的超级计算机，以二胜一负三平的战绩战胜了当时世界排名第一的国际象棋大师加里·卡斯帕罗夫…

2016年3月，谷歌的AI程序AlphaGo I与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的比分获胜；2016年末2017年初，升级换代后的AlphaGo II在中国围棋网站上注册为“大师”（Master），与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩；2017年5月，在中国乌镇围棋峰会上，它与排名世界第一的世界围棋冠军柯洁对战，以3比0的比分大获全胜。至此，围棋界公认AlphaGo II的围棋水平已经超过人类职业围棋顶尖水平。

然而，在“综合智能（强人工智能）”领域（例如，读懂某种机器的说明书，并按说明书进行独立操作，完成该机器的装配），人工智能的表现还不尽如人意。

不过，这几年在图像识别、疾病诊断、语言翻译等诸多方面也有很多令人欣喜的进步与成果。

例如，由中央电视台和中国科学院共同主办的科技类挑战节目《机智过人》，特别设立了“2018智能先锋”，凡是入选者都是在节目现场经过智能见证团与观众严苛检验，公认代表了人工智能现阶段发展最高水平的人工智能产品或项目。自“2018智能先锋”设立以来，已经先后有科大讯飞智能翻译机、微软小冰智能机器人、东方红无人驾驶拖拉机、外骨骼机器人、“星骥”无人自动驾驶汽车等入选“2018智能先锋”。

在越来越多的领域，人工智能正在快速超越人类。这也意味着大批的导购、客服、导游、翻译、记者、保洁员、录入员、校对员、收银员、交易员、保安、司机、……都有可能在不远的未来，失去自己原有的工作。斯坦福大学的一项统计显示，未来十到二十年，美国注册在案的720个职业中，将有47%被人工智能取代；在中国，这个比例可能超过70%。不少专家认为，人的很多工作将被人工智能取代，是现阶段我们所面临的最紧迫、最严峻的挑战！

作为人类历史进程中的一员，我们至少要追随历史潮流前进，而不要莫名其妙被历史车轮碾死。

我们改变不了科技与历史的进程，但是，我们可以改变自己、以及我们下一代的认知结构。面对步步紧逼的人工智能，我们要么积累财富，成为资本大鳄；要么积累名气，成为独特的、无可替代的个体：要么积累知识，不断提升自己的学习能力与创新能力、或跨学科跨领域的能力，成为更高深技术的掌握者与引领者；即使我们做不到，也要教育我们的下一辈做到。

五．大数据引领第四次科技（工业）革命

第一次科技革命（18世纪60年代-19世纪中期），以蒸汽机、汽船、火车为代表，标志着人类进入蒸汽时代，——机械化革命。

第二次科技革命（19世纪七八十年代-19世纪末20世纪初），以电力、内燃机、飞机、汽车为代表，标志着人类进入电气时代，电气化革命（能源革命）。

第三次科技革命（二战后-20世纪80年代），以计算机、原子能、航空航天、遗传工程为代表，标志着人类进入信息时代，——信息化革命。

第四次科技革命（21世纪初至今），以人工智能，清洁能源，无人控制技术，量子信息技术，虚拟现实以及生物技术为主，标志着人类进入绿色能源与人工智能时代，——智能化革命。（工业4.0）

人类近代史上四次全球性的科技（工业）革命，都是在西方发达国家兴起、并由西方发达国家领头的科技革命，中国总是被远远甩在后面、拼命追赶，第三次科技革命（信息化革命）我们尚未完全赶上，第四次科技革命的浪潮又铺天盖地迎面而来，根本不给我们任何喘息的机会！

大数据与人工智能，是我们所面临的又一次高难度的、决定中华民族未来命运的巨大挑战！

中国的大数据与人工智能现状：

大数据与人工智能已经在中国遍地开花，并且硕果累累，某些方面还处于世界领先地位（例如中国的新四大发明：高铁、扫码支付、共享单车与网购）。

总体水平（特别是核心领域）仍落后于西方发达国家，但差距正在迅速缩小，可以说：与前三次科技革命相比，这一次我们与西方发达国家差距最小、最容易迎头赶上，甚至有可能在很多方面超越西方发达国家。

我国在大数据与人工智能上的主要问题是：

（1）基础（特别是理论基础）比较薄弱，研究缺乏前瞻性，这与我们“重实用、轻理论”的文化传统有关；

（2）思维方式的变革阻力很大，这与我们传统的“非定量化、讲究因果”的思维模式有关；

（3）人才极度匮乏，有我们自己教育体制的原因也有西方“挖墙脚”的原因；

（4）数据的共享度远远不够（数据割据与数据孤岛）；

（5）数据的真实度极待提高（数据造假）；

（6）数据的透明度与安全性的“度”还没有把握到位。

我们正处在一个大数据无处不在的“大数据世界”、我们正处在一个大数据无所不能的“大数据时代”，第四次科技（工业）革命的浪潮正汹涌澎拜地在全球掀起，中华民族面临着生死存亡的“大数据挑战”，——谁掌握了大数据，谁就掌握了未来！