|
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
为何叫“大数据”?
数据体量大(VOLUMES)
代指大型数据集,一般在10TB规模左右。但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。未来智能家居领域也有许多这种企业,目前国内智能家居领域的数据量级总和已经达到100TB以上,非结构化数据规模正在以更快的速度增长。
数据类别大(variety)
数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。也就是说,大数据最重要的变化是处理对象由结构化数据拓展到了半结构化和非结构化数据,每年非结构化数据存储总量较结构化数据增长率高出10到50倍。
非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据,非结构化数据如企业的邮件和其它形式的电子通讯记录;网站上的资料,包括点击量和社交媒体相关的内容;还有设备产生的数据,如RFID、GPS\传感器产生的数据、日志文件等。
数据处理速度快(Velocity)
在数据量非常庞大的情况下,也能够做到数据的实时处理。
数据真实性高(Veracity)
随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
小贴士:
TB是一个计算机存储容量的单位,它等于2的40次方,或者接近一万亿个字节,即一千千兆字节。PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB。数据单位从小到大为:B.KB.MB.GB.TB.PB。1PB=1024TB,依次类推。
TB、PB依然很难理解,我们举些例子。美国国会图书馆在2011年4月之前总共收集了235TB的数据。假设手机播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。如果智能手机相机拍摄相片的平均大小为3MB,打印照片的平均大小为8.5英寸,那么总共1PB的照片的并排排列长度就达到48000英里,大约可以环绕地球2周。
人类功能记忆的容量预计在1.25个TB。这意味着,800个人类记忆才相当于1个PB。1PB足够存储整个美国人口的DNA,而且还能再克隆2倍。如果以每秒1个位的速度数一下1PB所包含的位数,那么一个人需要2.85亿年才能数完,如果每秒数1个字节,那么一个人需要数357万年。谷歌为用户提供了超过20PB(215亿MB)的地图影像——包括卫星图片、航拍照片和360度街景图片。即使在2008年,谷歌每天处理的数据已经达到20PB,一年就是7300PB。社交媒体网站早就开始生成PB级数据,Facebook在2012年前已经存储了100PB数据。宇宙每天将生成1376PB数据,相当于每天传输的全球互联网流量的两倍。
数据本身是资产,所有大数据的属性,包括数量、速度、多样性等反映了数据库不断增长的复杂性。
大数据存储和分析
大数据分为大数据存储和大数据分析,属于两种截然不同的计算机技术领域,大数据存储用于大数据分析。大数据存储重点在于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。目前无论是大数据存储还是大数据分析,都已经成为帮助企业主业务的关键应用。在智能家居领域,例如家庭数字网络摄像头的云端存储,音视频设备背后的云端流媒体,家庭电量实施云端监测等等,都在大规模使用云存储和分析技术。
智能家居云存储方式
高度智能化的智能家居涉及数据量非常庞大,传统存储技术无法满足,所有云存储技术的逐渐发展与应用也为智能家居的发展迎来了广泛的关注。
大数据在智能家居领域的贡献
我们每个人都是数据的贡献者,全球平均每人大概携带200GB的数据,而智能家居作为围绕人与设备的新兴领域,大数据对于相辅相成的贡献也是不言而喻的。我们谈论的一定是有价值性的采集,如果我们都不知道哪些数据要采集或者放弃,最终搭建数据分析系统的时候,可能会不知道怎么搭建,也不知道用什么技术,甚至收集到许多无用的信息纯属浪费时间。我们可以把企业的运营、产品、用户使用情况、设备信息都存储,但是提取分析要有清晰条理的规划,最终的数据价值才有意义。
智能家居系统的所产生数据的包含面非常广,既有硬件传感器的数据、也有硬件本身的数据运行状态、也有用户和硬件交互的数据,还有用户通过APP等客户端产生的数据、更有用户自身的使用习惯和生活场景的数据等等,这就导致整体的智能家居所产生数据的积累速度和量都很大。智能家居企业初期围绕业务驱动,下面一些数据是必须要收集的,建议采用分布式大规模的云存储架构,以满足未来企业高速发展和创新需求的必然趋势。
智能家居大数据的采集内容:
智能家居大数据的采集内容,包括APP的使用情况、故障自诊断信息、服务运营信息、用户画像、设备使用状态、用户使用行为、APP交互行为、用户信息数据、设备功能信息、用户信息、设备功能信息、设备日志、APP日志、子设备参数与运行状态等等其他数据。
智能家居为何需要大数据?
智能家居是多领域融合的切入点,是社会家庭管理的支撑点,是民生服务的新亮点。物联网生产大数据,大数据支持智能家居,从智能家居到数据再到智能化,构成了从感知到认知的全过程。大数据是智能硬件竞争的制高点,可以帮助硬件厂商挖掘用户的设备使用行为,让厂商可以了解自己的用户、优化产品策略和市场策略。还可以对用户进行学习,建立用户画像,针对不同的用户提供个性化智能体验,给不同的用户提供个性化优惠,加大二次销售。也可以做设备活动状态的分析、故障率的分析,这样来指导产品、硬件后面怎么做迭代层、怎么做升级,包括知道用户喜欢用什么功能、用户在什么时间段喜欢用这个功能,知道后面营销策略针对哪些地域作为重点。利用大数据可以挖掘出非常多的价值,这需要在IoT领域不断地去探索。
云计算与大数据
想获得海量数据,设备必须接云,智能家居领域将面对的将是千亿乃至万亿的设备。如果在云安全部署还未成熟的情况下,就将这些设备盲目入云,将会导致不可想象的灾难。所以数据前提是云安全,所以云计算的方式方法至关重要。
云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。云计算是大数据成长的驱动力,而另一方面,越来越多的数据需要云计算去处理,所以云计算与大数据是相辅相成的,在智能家居产业中体现得更加淋漓尽致。
未来通过云计算对大数据进行存储分析和准确提取的同时,需要深度学习和深度挖掘数据,模拟学习用户行为,实现更加“聪明”的智能体验。