本文共 6715 字,大约阅读时间需要 22 分钟。
第一节 简介
近年来“物联网”(IoT)和“大数据”是两个最受瞩目的话题。在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结。这包括了手机、咖啡机、洗衣机、耳机、台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1)。这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头。无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好。
图 11.1 物联网在连接设备的应用 (来源: the IPSO Alliance)
物联网(IoT)是目前大数据市场的最新趋势。在未来十年内,估计会出现约两百五十亿个网络连接设备,比个人计算机、手机和平板计算机等的数量加起来还多,这是一个很庞大的连接(有人甚至估计这个数字还要高得多,超过一千亿)。物联网是连接 “物品” 的巨大网络。这关系是在人与人、人与事、物与物之间。因此,影响物联网最大的因素之一就是数据:数据量、数据的管理和使用,如图11.2 所示。
图 11.2 物联网连接数据的数量 (来源:IHS 2013)
第二节 大数据
大数据是指大量的数据,它是非结构化和没有组织性的,指的是不断增加的数据,且需要收集、储存、管理和分析的技术。这是个复杂的和多层面的现象,影响到人员、流程和技术。从技术的角度来看,大数据整合了组织、管理、分析和显示数据,这些都是“Seven V’S”的特点。
图 11.3 在 Seven V’S 里面的大数据演变为数据的价值
一、资料量
大数据的数据量,是指从这些来源(文字、声音、视频、社交网络、调查研究、医疗数据、空间意象、犯罪报导、气象预报和自然灾害等等)所收集到的各个数据。而在处理大数据的问题时,数量的多寡是一个关键的因素。
二、数据输出输入的速度
这个速度影响负责大量数量和数据进来的速度。例如,当发生数据有时间上的紧迫、需要立即处理并迅速保存的时候。
三、数据类型,多样性
多样性是指数据的不同数据资源和格式,而它不能将自己储存在结构化的关系数据库系统。数据的多样性直接影响数据的完整性。数据中的多样性越复杂,就越容易产生错误。
四、真实性
由于非结构化和大数据的处理应考虑其准确性 - 数据的真实性。而“真实性”将成为最受关注的一项因素,尤其是对于大数据的处理、相关分析以及最后结果这些方面而言。
五、有效性
数据的有效性可能听起来相似于数据的准确性,但概念上却是不同的。有效性意味着数据的正确性和精确度。
六、能见度
能见度指的是能够看到或被看到–它是隐含的。来自不同来源的数据需要合并在一起,而它们是由可见的技术层所组成的大数据。
七、价值
这是一个非常重要、具有价值或很有用的数据。这个“价值”是大数据处理后所期望的结果。实际上,数据的价值必须超过成本。
大数据技术是一项新的技术和结构,意指在从各种非常大量的数据中获取价值,并透过使用快速采集来发现和/或分析大数据技术层,包括:
(一) 基础设施,如储存系统,服务器和数据中心网络基础结构
(二) 数据组织和管理软件
(三) 分析和搜寻软件
(四) 决策辅助和自动化软件
(五) 服务器包含业务咨询、业务流程外包、IT 外包、以 IT 项目为基础的服务、IT 辅助和培训有关大数据如何运用。
图 11.4 大数据在物联网中的角色 (来源:IHS 2013)
如果没有适当的把数据收集到位,对企业而言将不能排序所有在嵌入式传感器(图 11.4)中流动的信息流。这意味着,如果没有大数据,物联网仅可提供企业一点点东西。要引进先进的物联网使用案例,其关键在于:在一般情况下进行数据分析、要能从想象中到实际上可以实施、借助进入到数据基础结构,来达到经济实惠和易维护性。
八、大数据架构
新大数据结构是弥补传统系统中的不足之处,但也增加了整体的复杂性。这种技术使公司能够分配数据的储存与数据的分析,并分析有效性以及辨识模式、趋势等。公司不仅能够进行历史分析和回馈导向的报告,同时也期待着,预测商业的见解,从而积极支持未来的决策。多数专业系统需要处理不同的需求和方法。特别是对于物联网而言,M2M 和传感器的数据,因为数据的实时处理和分析是必要的,而且传统系统无法提供其所需,因此内存和流动式数据库的应用程序是必要且不可少的。
大数据的技术结构可以分成六个不同的重点领域,以专业技术为主轴:数据储存、数据存取、数据整合、分析处理、视觉和数据管理。
图 11.5 简易大数据架构
九、云端运算
而物联网真正的创新来自于它与云端运算的完美结合。当连接设备之间相互发生作用时,大量的数据将产生于此。这些数据很容易地被捕捉到以及储存,但需要将其转化为有价值的知识和可执行的情报–而这是云端真实的实力所在。实际上,云端运算是一个模型,为了足够方便、并依据网络需求权限,来配置运算资源的共享池(如网络,服务器,储存,应用和服务),它可快速配置和发布最小的管理工作或服务提供商互动。[5]有三种云端服务模式如下(图 11.6):
(一)云端软件服务(SaaS)
多数的 SaaS 应用程序,是用来涵盖在所有情况的范围之下企业用户的所需。
(二)云端平台服务(PaaS)
PaaS 提供开发人员工具和知识库构建、测试、配置和在云端基础设施上运行这个应用程序。PaaS 借助无需配置和扩展 Hadoop 的元素来实现降低管理的工作量,并作为先进分析应用程序的开发平台。
(三)云端基础设施服务(IaaS)
IaaS 在共享资源服务器中能分配或拖延时间,这往往是虚拟化,处理的运算和储存需求的大数据分析。
三个主要的云架构模型已经随着时间的推移而发展; 私有、公共和混合云(图 11.7)。它们都共享资源商品化的想法,并为此常常虚拟化的计算和抽象的储存层。
(四)私有云
私有云是专用于一个组织,不共享物理资源。此资源可由公司内部或外部提供。私有云配置的典型要求是安全性,严格区分企业的数据储存和处理是否被无意或是恶意进入共享资源。
(五)公共云
公共云的数据传输、储存和处理共享实体资源。然而,客户有隐私的可见运算环境和独立储存。安全方面的问题,采用一些私有云或自定义的配置,对绝大多数的客户和项目不相关。
图 11.7 私有和公共云端运算之间的区别
(六)混合云
混合云架构合并私有和公共云的配置。通常是为了实施安全性和弹性,或提供更便宜的基本负载和脉冲能力。
云端运算模式提高 IT 的灵敏性,就能节省很多成本。此外,云端运算是一个自由的大数据 - 任何企业都能在规模庞大的数据里与非结构化数据一起运作。云端运算和云端数据储存的兴起,对于大数据的出现而言,将成为一个前兆和推动者。云端运算借助标准化技术方法,来计算时间和数据储存,并商品化。它比传统的物理配置有更显著的优势。然而,云端平台有好几种形式,有时不得不与传统架构一起整合。云端运算运用可视化在同一台实体机器上,来运算资源来以运行许多标准化的虚拟服务器。云端提供者允许低价格和根据短的时间间隔来计费,以实现这一经济规模效益。这种标准化使得计算需求,具有弹性和高可用性的选项。
借助增加附加的实例与服务他们每个人一部份的需求,来垂直扩展以实现弹性。像 Hadoop 的软件是专门为分布式系统来利用垂直扩展,他们在大平行规模里处理小的独立任务。分布式系统也可以作为数据储存,例如 NoSQL 数据库,或文件系统像是 Hadoop 的 HDFS。透过与复杂工作流程的机器集群,可用风暴在接近实时之下提供协调数据流的处理来替代。典型的云端大数据项目的数据处理重点放在缩放或采用 Hadoop。像 Hive 和 Pig 这两个工具已经在 Hadoop 之上,这使得它可行轻松地处理庞大的数据。
三、HADOOP
Hadoop 是一个强大的开放架构,它几乎是由整个大数据堆中许多不同的技术所组成,借着利用正在使用的几个组织,并透过物联网(IoT)来收集分析和处理数据。对于物联网(IoT)收集非结构化数据,这仅仅成功了一半,另一半处理批量,是使用 Hadoop 分析数据。物联网的成功或失败取决于大数据,随着企业步入物联网的世界里,物联网与大数据之间的共生关系被广泛利用在盈利的业务决策上。物联网大部分是关于数据而不是设备中的数据。大数据和物联网就像是战略合作伙伴,因为它们不只是从物联网收集数据,还必须进行处理和分析,以争取改善业务营运。因数据的特性,物联网设备适合用于采用分析大数据的方法。物联网(IoT)的基础设施已经达到了成熟的水平:
(一) 无所不在 - 现在传感器已经很便宜,并可被包含在任何系统内。
(二) 向外扩展集中计算-Hadoop 可被用于分析、处理和储存所有 IoT 所产生的数据,并具有成本效益的可扩展分布式计算系统。
Hadoop 运用企业级储存处理层,可储存接近一兆的文件。各种相关性可以在不同类型的非结构化数据之间,借助利用 Hadoop 和物联网,从而为企业的竞争优势提升到另一个层级。下图所示的相互作用物联网(IoT),说明数据储存和大数据分析引擎之间是如何发生的,如图 11.8。
图 11.8 物联网三要素之间的相互作用
第三节 物联网的应用和大数据 HADOOP
一、迪斯尼世界独有的流行魔术手环
迪斯尼世界独有的魔术手环,是物联网如何利用大数据的最佳范例之一。魔术手环是一种可穿戴式的手环,游客可以戴在手腕上,从办理报到手续到他们的房间开始、购买食物、进入主题公园的旋转门。迪斯尼收集有关游客在主题公园内活动的非结构化数据,以将其用于分析,帮助他们 - 工作人员的吸引力和游乐设施的有效性,调节餐厅在尖峰时段的存货,容纳更多的客人进入饭店。
二、受到大众喜爱的珠宝店 Alex and Ani
Alex and Ani 这两家受到大众喜爱的珠宝店,它们在店内使用 Beacon 的技术来追踪商店内的游客数量和发送特定的折扣券,使顾客一进入到商店中就能发送给他们。
三、Beacon 技术在麦当劳食品供应链
麦当劳是用 Beacon 技术透过顾客的手机应用程序,知道谁在麦当劳餐厅附近,以提供优惠券给客户。顾客收到有个人化种类的讯息,并使用手机应用程序找出最有关联的交易。
四、UPS(联合包裹服务公司)
UPS 是美国最大的运输公司,他们正在利用传感器数据进行大数据分析,以提高办事效率来节省资金,并减少对环境的影响。UPS 在送货车辆上安装传感器来追踪油量行驶里程数,停止和加速的发动机状况。这些物联网传感器从每个车队的每一台车辆采集近 200 个数据点,每一天将近 80,000 个。UPS 已成功地减少有害排放燃料的消耗和减少车辆的空闲时间。
第四节 运用大数据的案例
现在的大数据技术提供了各种不同的能力。它已经用来创造新产品、预测行为和趋势,并优化销售活动。大数据正在改变各种行业的经营方式,它能提供量身打造的医疗保健,使得我们的城市更智慧、更安全。本节的其余部分将讨论,大数据被用于一些特定的情况。
一、利用大数据来预测犯罪地点
预测未来犯罪是现在现实的一部分。其中一个例子是洛杉矶警察局(LAPD)在近期利用大数据来预测犯罪地点,因此降低整个大都市区的犯罪,在使用预测软件的区域作出了以下贡献,降低 33%的室内偷窃、21%的暴力犯罪和 12%财产犯罪。当地震发生的时候,在附近会有很高的机率出现余震。这个数学模型,是由一位助理教授乔治莫赫所开发的,它可以用来定义和预测新余震图案。
犯罪数据显示类似的模式(见图 11.9)。这些数据有助于洛杉矶警察局 LAPD了解犯罪的性质。它表示当犯罪发生在一个地方的时候,就会有更多的犯罪出现在附近,这些犯罪活动的模式,就类似余震模式。当他们把之前的犯罪代入方程式,就会产生在过去预测里发生了什么事。而现在该部门可以透过运算来分析识别犯罪模式,这系统的分析,让暴力犯罪在洛杉矶连续递减。
就像遵循一个地震余震,附近的盗窃也跟着快速重复发生(从洛杉矶 2004/5 的数据)
图 11.9 犯罪余震 (来源:G.O. MOHLER)
二、以大数据作为医疗保健创新的源泉
大数据的发布可能会激发很多公司开发医疗保健应用程序,或类似的创新。以下是大数据革命创造有关医疗创新的一些例子:
(一) MHealthCoach 支持慢性病照护的病人、提供教育,并透过一个互动系统来治疗。这个应用程序利用医疗保健的成本和项目的数据,这是由卫生保健研究与质量的机构所赞助的,以及来自临床试验的结果和警告。MHealthCoach 也可被供应者用来识别高风险患者,和提供重要的消息并提醒他们(图 11.10)。
图 11.10 Mhealthcoach (来源:mhealthcoach)
(二) Asthmapolis 创造了一个可使用 GPS 追踪器的东西,它借助哮喘来监测吸入器的使用情况,并在 Google Play 商店和 App Store 推出了名为Propeller Health 的应用程序(见图 11.11)。这个 Propeller 传感器会持续追踪患者药物的使用,并随着时间和地点来记录,定位病人使用的吸入器。也可同时用于救援和控制药物症状追踪。这些讯息会被放到中央数据库,并用于识别个人、团体,并基于人口的趋势,合并哮喘催化剂 CDC讯息(例如,在东北花粉计数和火山雾在夏威夷的影响),以帮助医生制定个别化的治疗方案,并预防突发的状况。该 Propeller 无线传感器与患者的智能手机,会使用内置蓝牙的技术与手机同步。为 iOS(如iPhone 和 iPod Touch)和 Android 设备的 Propeller 手机应用程序可以让病人来查看数据,给他们个人化的回馈和教育的方法,来改善他们的哮喘控制或慢性阻塞性肺病。
图 11.11 Propeller 应用
Ginger.io 提供了一个手机应用程序,即患者(如糖尿病患者)同意,与他们的供货商合作,透过他们的手机进行追踪和协助应用程序记录呼叫讯息、简讯、位置,甚至是移动的讯息(图 11.12)。患者也响应了智能手机的调查。Ginger.io应用程序整合了从美国国立卫生研究院取得的公共研究,和其他健康数据讯息。获得可揭示的见解;例如,缺乏运动或其他活动,可能预示着患者感觉身体不适,和不规则的睡眠模式可能预示着焦虑发作迫在眉梢。
图 11.12 Ginger i.o 的应用 (来源:https://ginger.io/)
第五节 大数据为企业和消费者带来的好处
大数据为企业和客户创造价值,这些好处可以在广泛的领域中感受到,不论是大型或小型公司。在大型公司中,有投资大数据技术的几个驱动因素; 分析业务和交易数据,能够收集深入了解网络上顾客的行为,并采用先进的分析来发现,其中 BTO 模式的制造商可以用影响最小的现有生产计划到调度机、工作人员来销售。大数据正由制造商提高保修管理和设备监控,以及优化他们的产品投入市场的物流。零售商正在利用各种各样的客户互动,在线和线下,以提供更有针对性的建议和最优定价。科技公司正在利用大数据来分析数以百万计的数据,以提供更可靠,更准确的语音接口。银行使用大数据技术来提高欺诈检测。
对于顾客而言,大数据创造的产品和服务,影响他们的日常生活。使网络安全专家透过利用大量的网络和应用数据,并用它来识别异常情况和威胁,以保护信用卡系统。近 29%的美国人谁是“无银行账户”或“已经开户”有资格获得信贷额度的使用范围更广,如支付租金、水电费、移动电话用户、保险、儿童保健和学费。
当企业采用大数据作为其商业战略的一部分,第一个问题通常大数据会启动什么样的价值? 有助于高层或低层,或者会有一个非金融类驱动? 从一个价值点来看,对大数据分析应用程序可分为三个维度(见图 11.13)之一。
第一项也就是最明显的是营运效率。在这种情况下,数据是被用在做出更好的决策,以优化资源消耗,并提高过程的质量和性能,这是自动数据处理一直在提供的,不过也有一个增强的功能集。第二个维度是客户体验; 典型的目标是提高顾客的忠诚度,进行精确的顾客细分,优化客户服务。包括公共互联网庞大的数据资源,大数据推动 CRM 技术的下一个发展阶段,这也使新的商业模式,从现有产品的补充收入来源,并创建全新的(数据)产品的额外收入。
图 11.13 价值维度的大数据用例
本文转自d1net(转载)