提要文摘: | 本书系统全面地阐述大数据分析的基本理论和基本技术。本书以大数据分过程中常用的技术和平台为主线, 以提高学生的编程实践能力为目标进行编写。本书的主要包括九章。第一章介绍大数据发展的背景和相关的理论知识和概念。第二章介绍大数据的采集, 包括大数据的来源、采集工具、预处理方法等。第三章介绍大数据处理平台Hadoop, 包括Hadoop的发展、特点、体系结构, Hadoop在不同平台的安装和部署方法。第四章介绍MapReduce编程方法, 包括MapReduce概述, 开发工具的安装和配置, MapReduce编程实例, 以及MapReduce程序的运行。第五章介绍HDFS, 包括HDFS的概述、架构, HDFS的文件类型, 访问方式。第六章介绍HBase, 包括HBase概述、架构及特点, HBase Shell和 Java API的访问方法。第七章介绍Hive, 包括Hive的概述、体系结构、运行模式, Hive在不同平台的安装和部署, 以及应用案例。第八章介绍大数据处理平台Spark, 包括Spark概述, Spark的安装和部署, Spark开发环境, 以及编程实例。第九章介绍NoSQL数据库, 包括NoSQL概述。 |