数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统; 同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。Hadoop数据仓库的主要特征有面向主题性、集成性、非易失性和时变性,接下来对这四个特性做详细介绍。 查看全文>>
Python+大数据学习常见问题2023-01-03 |传智教育 |Hadoop数仓概述,Hadoop数据仓库特征
MySQL安装完成后,会自动配置为名称叫做:mysqld的服务,可以被systemctl所管理,我们在进行系统的配置时,主要修改root密码和允许root远程登录。 查看全文>>
Python+大数据技术文章2023-01-03 |传智教育 |MySQL8.0版本在CentOS系统的配置教程
MapReduce的思想核心是“先分再合,分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。 查看全文>>
Python+大数据技术文章2022-12-29 |传智教育 |MapReduce思想
Hadoop需要Kerberos来进行认证,以启动服务来说,在后面配置 hadoop 的时候我们会给 对应服务指定一个Kerberos的账户,比如 namenode 运行在cdh0机器上,我们可能将 namenode 指定给了nn/cdh0.itcast.cn@ITCAST.CN 这个账户, 那么 想要启动 namenode 就必须认证 这个账户才可以。 查看全文>>
Python+大数据技术文章2022-12-29 |传智教育 |HDFS相关的Kerberos账户配置
聚焦网络爬虫面向有特殊需求的人群,它会根据预先设定的主题顺着某个垂直领域进行抓取,而不是漫无目的地随意抓取。与通用网络爬虫相比,聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选,保留与主题有关的网页链接,舍弃与主题无关的网页链接。其目的性更强。聚焦网络爬虫的工作原理如图1-2所示。 查看全文>>
Python+大数据技术文章2022-12-21 |传智教育 |python网络爬虫,聚焦爬虫和通用爬虫
在弄清楚大数据分析师要学什么之前,我们先来对大数据这个概念稍作下了解。大数据也叫作巨量数据或者说海量数据,基于大数据结构复杂和类型复杂的特点,技术人员从这类数据中去获取有价值的信息的能力,我们称为大数据技术。一般来讲,大数据分析师主要要学习以下技术。 查看全文>>
Python+大数据学习常见问题2022-12-21 |传智教育 |大数据分析师要学什么
三级模式是指数据库管理系统从三个层次来管理数据,分别是外部层(ExternalLevel)、概念层(Conceptual Level)和内部层(Internal Level)。这三个层次分别对应三种不同类型的模式,分别是外模式(External Schema)、概念模式(Conceptual Schema)和内模式(Internal Schema)。 查看全文>>
Python+大数据技术文章2022-12-20 |传智教育 |三级模式和二级映像
总体上,Django遵循各部分松耦合、代码尽可能精简、保证Web开发效率、避免重复、明确优于隐式(保证不熟悉框架的人也能了解框架的工作,或能快速掌握框架的工作)这些理念,同时官方对Django的模型、数据库API、URL设计、模板、视图以及缓存框架这些部分的设计理念做了进一步细化,具体分别如下: 查看全文>>
Python+大数据技术文章2022-12-19 |传智教育 |Django框架开发理念