许鹏著2015 年出版285 页ISBN:9787121254208
本书从源码级别深度剖析当下大数据领域最为红火的Apache Spark,分析紧密围绕两大维度展开:一是从Hadoop生态圈的角度来看Spark为什么能取得当前这么大的关注,它主要解决了哪些关切问题,可以说是从需求及市场的...
王家林,夏阳编著2017 年出版251 页ISBN:9787302464914
本书根据大数据处理引擎Spark的最新版本,从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架Spark Streaming。在勾勒出Spark Streaming架构轮廓的基础上,从基本源码开始进行剖析,由浅入...
徐郡明编著2017 年出版592 页ISBN:9787121313455
本书以Kafka 0.10.0版本源码为基础,针对Kafka的架构设计到实现细节进行详细阐述。本书共5章,从Kafka的应用场景、源码环境搭建开始逐步深入,对Kafka的核心概念进行分析介绍,对Kafka生产者、消费者、服务端的源...
(美)刘永川(Alex Liu)著2017 年出版208 页ISBN:9787111562559
本书包装了一系列项目“蓝图”,展示了Spark可以帮你解决的一些有趣挑战,读者在将理论知识实践于一些实际项目之前,会了解到如何使用Spark notebook,以及如何访问、清洗和连接不同的数据集,你将在其中了解Spark机...
刘景泽编著2019 年出版422 页ISBN:9787121370519
讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序...
耿嘉安著2016 年出版470 页ISBN:9787111522348
本书分为三大部分:第一部分为准备篇(第1~2章),简单介绍了Spark的环境搭建和基本原理,帮助读者了解一些背景知识。第二部分为核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引......
黄美灵著2016 年出版392 页ISBN:7121282143
本书以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。本书循序渐进,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础...
王家林,王雁军,王家虎编2016 年出版432 页ISBN:7111528603
本书共11章。书中第1章首先通过介绍Spark的生态系统和企业应用,使读者能够快速的对Spark技术的生态环境以及Spark的应用现状有个非常直观的了解。随后第2章,通过Spark集群的安装和部署把开发环境快速的搭建起...