(三) hadoop安装


hadoop安装

(二)数仓运行环境搭建


数仓运行环境搭建

(一)数据仓库的概念及需求和架构设计


数据仓库(Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。1 数据仓库的输入数据1.1 业务数据就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务

Google File System 中文版


Google File System 中文版 1摘要我们设计并实现了Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。虽然 GFS 的设计目标与许多传统的分布

Google Map Reduce 中文版


Google Map Reduce 中文版 1摘要MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个 Map 函数处理一个基于key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建一个 Red

Google Bigtable 中文版


Google Bigtable 中文版 1摘要Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB 级的数据。