一佳互联

展开菜单

centos7安装hadoop集群(亲测可用)

centos7安装hadoop集群(亲测可用)
环境准备1、hadoop集群hosthostname192.168.46.22master192.168.46.23slave1192.168.46.24slave22、软件版本 centos7:CentOS-7-x86_64-DVD-1708.iso 下载地址 hadoop:hadoop-2.9.2.tar.gz 下载地址 jdk:jdk-8u311-linux-x64.tar.gz 下载地址 虚拟机:VMware® Workstation 16 Pro开始安装一)准备三台...

Spark2.4.8集成并读写hive表数据

Spark2.4.8集成并读写hive表数据
Spark2.4.8集成并读写hive表数据1. 本地模式配置2. **远程模式**一、Hive简介二、Hive安装三、Hive的本地模式和远程模式配置四、创建Hive表五、SparkSQL集成Hive一、Hive简介Apache Hive™数据仓库软件通过SQL实现对分布式存储中的大型数据集的读写和管理。结构可以投射到存储中的数据上。Hive提供命令行工具和JDBC驱动程序连接用户。 本质上:Hive是一个翻译器,借助Hive引擎将SQL语句转成MR程序且构建于HDFS上的...

kafka3.0集群搭建过程

kafka3.0集群搭建过程
1.环境说明服务器资源规划如下表:IPhostname部署资源192.168.162.201m162p201zookeeper,kafka192.168.162.202m162p202zookeeper,kafka192.168.162.203m162p203zookeeper,kafka操作系统版本(三个节点均相同):[root@m162p201 software]# lsb_release -a LSB Version: ...

《kafka问答100例 -7》如果Topic删除过程中有某台Broker宕机,删除流程会正常进行吗 ? |文末送书

《kafka问答100例 -7》如果Topic删除过程中有某台Broker宕机,删除流程会正常进行吗 ? |文末送书
《Kafka运维管控平台》   ️更强大的管控能力️   更高效的问题定位能力   更便捷的集群运维能力   更专业的资源治理   更友好的运维生态  相关免费专栏   《Kafka面试100例》   《从0开始学kafka》    打卡日更 《Kafka面试100例》 当前更文情况:: 7 / 100 如果Topic删除过程中有...

Hive 数据迁移与备份

Hive 数据迁移与备份
迁移类型同时迁移表及其数据(使用import和export)分步迁移表和数据迁移表(show create table <tab_name>)迁移数据关联表和数据(msck repair)迁移步骤将表和数据从 Hive 导出到 HDFS将表和数据从 HDFS 导出到本地服务器将表和数据从本地服务器复制到目标服务器将表和数据从目标服务器上传到目标 HDFS将表和数据从目标 HDFS 上传到目标 Hive 库如果原始 HDFS 和目标 HDFS 集群连通,可使用 Di...

记一次Kafka消费者频繁分区再均衡bug解决

记一次Kafka消费者频繁分区再均衡bug解决
项目背景:两个Kafka消费者群组,消费同样的主题,一个消费者群组消费数据后,发给mqtt服务,供其他应用接收;另一个消费者群组消费数据后,存入mysql数据库。问题描述:提示:这里描述项目中遇到的问题: 在项目中使用Kafka消费者消费数据,并配置了分区再均衡监听器,在日志文件中发现再均衡监听器频繁的输出日志,即频繁发生分区再均衡。而项目已经跑了很久,没有新的消费者加入消费者群组,为何还要频繁进行分区再均衡呢? 经过分析日志还发现,当发生再均衡时会输出如下信息:Attemp...

Hadoop3.X分布式高可用集群部署

Hadoop3.X分布式高可用集群部署
一、部署规划1.1 版本说明软件版本操作系统CentOS Linux release 7.8.2003 (Core)hadoophadoop-3.2.2JAVAjdk-8u271-linux-x641.2 集群规划hostnameIP组件master172.16.20.200NameNodeZKFailoverControllersecondmaster172.16.20.201NameNodeZKFailoverControllerslave1172.16.20.202Zo...

Linux中的tomcat应用占用CPU过高解决方法。

Linux中的tomcat应用占用CPU过高解决方法。
Linux中的tomcat应用占用CPU过高解决方法。最近新上了个java应用,部署到服务器上之后发现运行一段时间之后服务器cpu的占用率会很高。排查了一遍之后,发现网上这篇文章的思路可以解决我遇到的问题,遂转载过来留存。以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题。根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。通过ps aux | grep PID命令,可以进一步确定是tomcat进程出现了问题。但是,怎么定位到具体线...

详解压测中出现的 nginx 502 no live upstreams 错误

详解压测中出现的 nginx 502 no live upstreams 错误
详解压测中出现的 nginx 502 no live upstreams 错误在一次压测过程中,发现随着并发用户量的增加,压测客户端收到错误请求越来越多,Nginx 返回大量 502 Bad Gateway 错误。以此次压测为契机,让我们有机会探讨高并发环境下可能出现的问题,本文借助 nginx 和 Linux 内核源码,分析产生 502 错误码的原因,并提出相应解决办法,为今后解决类似问题提供思路和参考。背景和现象项目部署在三台腾讯云服务器上,其中两台部...

Squid3 配置高匿代理

Squid3 配置高匿代理
之前简单介绍过 Squid 搭建正向代理服务器,但是这种方式搭建的代理服务器仅为普通代理,目标网站依然能检测到我们的真实ip,实际的爬虫业务中我们需要的是高匿代理,隐藏爬虫的真实ip。实现方法比较简单,只需要将如下配置加入到配置文件/etc/squid/squid.conf末尾即可。request_header_access Via deny all  request_header_access X-Forward...