Spark Streaming支持从多种数据源获取数据,其中就包括 Kafka,要想从 数据源获取数据,首先要建立两者之间的连接,本节来介绍两种连接Kafka的方式。 查看全文>>
Python+大数据技术文章2021-12-16 |传智教育 |SparkStreaming连接Ktfka两种方式
MySQL是整个IT基础课程,SQL贯穿整个IT人生,俗话说,SQL写的好,工作随便找。本课程从零到高阶全面讲解MySQL8.0,学习本课程之后可以具备基本开发所需的SQL水平。 查看全文>>
Python+大数据技术文章2021-12-16 |传智教育 | MySQL8.0从入门到精通实战教程
Hadoop技术栈,作为通用型分布式框架,可以同时完成海量数据的存储、计算、以及资源管控等多种任务,是大数据体系中的必学组件,也是绝佳的大数据入门技术栈。在大数据日益火爆的今天,很多程序员朋友都准备将其作为自己以后的职业方向,探索高薪职业赛道。那么,Hadoop技术栈便是你入行的第一步! 查看全文>>
Python+大数据技术文章2021-12-10 |传智教育 |最新Hadoop大数据基础入门教程
近年来,随着数据仓库技术、网络技术、电子商务技术的发展,可视化涵盖了更广泛的内容,并产生数据可视化的概念。数据可视化是指将大量数据集中的数据以图形图像的形式表示,并利用数据分析工具发现其中未知信息的处理过程。它的基本思想是:每个数据作为单个图元表示(比如点、线段等)... 查看全文>>
Python+大数据技术文章2021-12-09 |传智教育 |数据可视化,Syplot模块,什么是matplotlib
Cloudera Manager是用于管理CDH群集的端到端应用程序。Cloudera Manager通过对CDH集群的每个部分提供细粒度的可视性和控制来设置企业部署的标准,使运营商能够提高性能,提高服务质量,提高合规性并降低管理成本... 查看全文>>
Python+大数据技术文章2021-12-08 |传智教育 |ClouderaManager
ReduceTask的工作过程主要经历了5个阶段,分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段,如下图所示。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |ReduceTask工作机制
什么是幂等性?用http举例来说,一次或多次请求,得到地响应是一致的(网络超时等问题除外)就是幂等性,换句话说,就是执行多次操作与执行一次操作的影响是一样的。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |Kafka怎样实现生产者幂等性
MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果,这两个阶段的模型如下图所示。 查看全文>>
Python+大数据技术文章2021-12-06 |传智教育 |MapReduce编程模型