计算机
14 篇文章
computer
Pentaho Kettle 9.0.0.1 源码编译及探索(一)
      Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle是一款国外开源的…
大数据操作笔记
TCP/IP 1、IP地址10开头和172开头和192开头的区别/判断是否同一网段 A、B、C三类IP地址的特征:当将IP地址写成二进制形式时, A类地址的第一位总是O,如,10.0.0.1==000…
Cloudera Manager操作笔记
一、集群的分布情况 测试集群:3台,5台,或者10台 机器配置: 内存:24g 、32g以上 硬盘:4T 或者说更高 cpu:10核,或者6核 网卡:万兆左右 生产集群: 小型集群: 20台以下 中型…
Kafka入门笔记
SparkSQL优化 所有spark应用都需要注意cpucores(给executor分配)和task数量之间的关系,默认情况下一个task的运行需要一个core SparkSQL的专门的优化 -a …
Spark入门笔记
Spark 基于内存的分布式计算框架 类似于MapReduce的 官网:http://spark.apache.org/ 官方博客:https://databricks.com/blog 上课所用的s…
Scala入门笔记
一、Scala基础 1、安装:官网下载对应版本的scala压缩包,解压到指定目录(目录名称中一般都不要包括中文) 2、环境变量配置: -1. 保证jdk配置安装完成 -2. 配置scala环境变量 -…
Flume入门笔记
一、flume的概述 大数据阶段数据的收集来源--》sqoop、flume、Logstash、kafka flume的收集数据一般是日志,比如:网站日志-》用户行为数据 flume: -》Flume是…
Hbase入门笔记
【hbase】 关于数据库和hive数据仓库,其实大家要明白他们的定义,数据库就如关系型数据库是一样的, 可以存储数据,hive它不是用来存储的,只是封装了sql的应用层接口,用于数据的处理和分析, …
Hive-Sqoop-MySQL数据迁移
一、CDH5.3.x版本框架 1、cloudera公司 C:cloudera D:distribute H:Hadoop 2、cloudera公司上市 3、提供认证考试 -》Hadoop开发工程师的认…
Hive入门笔记
一、ETL介绍 数据抽取:把不同的数据源数据抓取过来,存到某个地方 数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取 不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库…