大数据是指“无法用现有软件工具提取、存储、搜索、共享、分析和处理的海量复杂数据集。”业界通常用四个V(即成交量、品种、价值、速度)来概括大数据的特征。
一是庞大的数据量。到目前为止,人类生产的所有印刷材料的数据量为200PB(1PB=210TB),而人类在历史上所说的所有文字的数据量约为5EB(1EB=210PB)。目前典型的个人电脑硬盘容量为TB,而一些大企业的数据量接近EB。
第二,数据类型很多。这种多样性还允许将数据分为结构化数据和非结构化数据。与过去易于存储的结构化数据相比,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些各种类型的数据对数据处理能力提出了更高的要求。
第三,价值密度低。该值与数据总量成反比。以视频为例。对于一个小时的视频,在连续监控中,有用的数据可能只有一两秒钟。如何通过强大的机器算法更快地完成数据的价值净化,成为大数据背景下亟待解决的问题。
第四,处理速度快。这是大数据区别于传统数据挖掘的最显著特征。根据IDC《数字宇宙》报告,预计2020年全球数据使用量将达到35.2ZB。面对如此海量的数据,数据处理的效率是一个企业的生命。
下一篇:返回列表