"大数据"是一个體(tǐ)量特别大,数据类别特别大的数据集,并且这样的数据集无法用(yòng)传统数据库工(gōng)具(jù)对其内容进行抓取、管理(lǐ)和处理(lǐ)。
"大数据"首先是指数据體(tǐ)量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用(yòng)中(zhōng),很(hěn)多(duō)企业用(yòng)户把多(duō)个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多(duō)种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
接着是数据处理(lǐ)速度(Velocity)快,在数据量非常庞大的情况下,也能(néng)够做到数据的实时处理(lǐ)。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用(yòng)数据等新(xīn)数据源的兴趣,传统数据源的局限被打破,企业愈发需要有(yǒu)效的信息之力以确保其真实性及安(ān)全性。