一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据 集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行 处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、 分布式数据库和云存储、虚拟化技术。
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是 对大数据处理系统本身进行开发。第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive Spark-SQL这种系 统也提供SQL的接口。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作 的话对理论和实践要求的都更深一些,也更有技术含量。
大数据的核心技术介绍
大数据开发的职场钱景与优势