大数据包括哪些内容

大数据包括结构化数据、半结构化数据、非结构化数据和元数据,而其中,非结构化数据越来越成为数据的主要部分,在实际应用中的使用频率也越来越高。而大数据产业链包括基础支撑、数据服务、融合应用三个环节。

a.结构化数据

结构化数据是具备一定模式或者结构的数据,这些数据在一个记录文件中以固定的格式存在,比如说我们常常遇见的存储在数据库中的表格数据,这些数据有统一的固定格式,可以通过固有的键值对获取到相应信息。结构化数据可以通过关系型数据库来表示和存储,但是我认为首先要依赖一个数据模型,即这个数据模型指的是数据是怎样被存储的。这样存储在数据库中的数据以二维形式表示:数据以行或列为单位,一行或者一列表示一条信息,每一行或每一列数据的属性是相同的。

b.非结构化数据

与结构化数据相反的是非结构化数据,结构化数据具备模式,非结构化数据是指信息没有一个预先定义好的数据模型来表现,所以称为非结构化数据。我们通常遇见的文本型数据,比如这个文本型数据中存储的是本篇文章的内容;比如说文字型数据,但是数据中又有很多像时间、数字的信息;再比如说图像、音频、视频数据。就我知道的图像数据而言,比如说对一个手写数字(0-9)灰色图片来说,如果图片像素是[公式]的,那么这个图片会以二进制数据0/1通过一个32行32列的矩阵存储。

c.半结构化数据

半结构化数据是介于结构化数据(如关系型数据库)和非结构的数据(如声音、图像文件等)之间的数据。它的数据是有结构的,但却不方便模式化。XML和JSON文件是半结构化数据的常见形式。由于这种数据的文本性质及其与某种层次结构的一致性,它比非结构化数据更容易处理:因为没有模式限定,数据可以自由流入、更新,在使用的时候模式起作用,构建数据模式来搜索数据。

d.元数据

元数据是描述数据的数据,主要指的是描述数据属性的信息。这种类型的数据大多是机器生成的,可以附加到数据中。

具体包含以下行业:

基础支撑:大数据存储管理、大数据网络和计算等系统资源管理、云计算平台、智能终端、大数据相关硬件、大数据平台等。

数据服务:大数据培训、数据安全、数据采集和预处理、数据分析数据可视化、数据流通等。

融合应用:数字营销、数字工业、数字金融、数字教育、数字医疗、数字政务服务等大数据应用。

从市场人才需求及就业角度看,基础支撑领域涉及到的技术性能力要求比较高,研究型人才需求量较大,但是基础支撑领域在整个市场中占到的份额就很小,因此该领域的就业竞争压力也会大很多。

另一方面,数据服务领域其实市场适用性更强,数据分析师人才需求相对更大一些,各行各业,只要需要数据参考,必定需要专业的数据分析人才,且这样的数据分析人才必定是要理解企业业务逻辑,懂企业运营规则,能结合数据给出企业决策者科学的意见及建议。

     

类似文章

发表评论

您的电子邮箱地址不会被公开。