一佳互联

展开菜单

ElasticSearch基本概念

ElasticSearch基本概念
1.简介Elasticsearch是一个基于Lucene的搜索服务器。提供了一个分布式多用户能力的全文搜索引擎基于Restful web接口。Java语言开发的Elasticsearch的功能分布式的文档存储引擎分布式的搜索引擎和分析引擎分布式,支持PB级数据全文检索,结构化检索,数据分析对海量数据进行近实时的处理相关网站:官网:传送门官网文档:传送门中文手册:传送门中文社区:传送门Jave-Client : 传送门2.索引(Index)索引是文档(Document...

Spark和Hadoop的区别和比较

Spark和Hadoop的区别和比较
Spark和Hadoop的区别和比较:1.原理比较:Hadoop和Spark都是并行计算,两者都是用MR模型进行计算Hadoop一个作业称为一个Job,Job里面分为Map Task和Reduce Task阶段,每个Task都在自己的进程中运行,当Task结束时,进程也会随之结束;Spark用户提交的任务称为application,一个application对应一个SparkContext,app中存在多个job,每触发一次action操作就会产生一个job。这些job可以并...

HCIA-Big Data V3.0大数据学习地图

HCIA-Big Data V3.0大数据学习地图
HCIA-Big Data V3.0介绍:本系列共14课内容,其中第1-8课、第10、12课由重庆邮电大学副教授雷大江老师讲解,剩余4课由华为认证大数据讲师讲解。内容按顺序依次是:大数据发展趋势与鲲鹏大数据,HDFS和ZooKeeper,Hive分布式数据仓库,HBase、MapReduce和Yarn技术原理,Spark基于内存的分布式计算,Flink流批一体分布式实时处理引擎,Flume海量日志聚合,Loader数据转换,Kafka分布式消息订阅系统,LDAP Kerber...

Elasticsearch7集群多主高可用配置

Elasticsearch7集群多主高可用配置
前言前面介绍了es7相关的一些用法。这一节我们来实践下集群高可用搭建,以及账号权限的配置。之前看了很多博主介绍的都是从主模式,主节点挂了集群也就不能对外服务了。目前使用的最新版本7.6.0。账号配置需要破解x-pack包。(如果不需要设置密码可以忽略)配置集群间证书认证不需要用户权限配置可以忽略。## 在 $ES_HOME 目录下执行bin/elasticsearch-certutil ca## 直接回车默认是生成文件 elastic-stack-ca.p12Please e...

基于 Docker 部署 Flume 应用

基于 Docker 部署 Flume 应用
本文目的在于通过 flume、zookeeper、kafka、docker 搭建基本的日志采集系统,实现日志的采集并将数据发送至 Kafka。搭建前,需确保已安装以下组件:JDK 8FlumeZookeeperKafkaDocker同时需确保已掌握以下技能:能在本地部署并成功启动 Flume,且了解 Flume 的核心概念 source、channel、sink能基本使用 Zookeeper,了解节点的创建、更新、查看与删除能基本使用 Kafka,了解 topic...

Cloudera 离线部署

Cloudera 离线部署
一、版本号system:CentOS 6Cloudera Manager:5.7.0CDH:5.7.0二、环境准备MySQL 5.6Java 8python 2.6三、安装步骤1. 进行集群角色划分,指定 server 与 agent在 Cloudera Manager 中,包含两种角色,server 与 agent,两者间关系如下:server 负责管理集群内主机agent 负责管理主机配置server 仅能有 1 个,agent 可以有多个现在假设有服务器 4 台,服务器...

Clickhouse的安装与启动

Clickhouse的安装与启动
一、Clickhouse 简介Clickhouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing)的列式存储数据库管理系统。Clickhouse 的优势:写入快、查询快SQL 支持简单方便,不依赖 Hadoop 技术栈支持线性扩展深度列存储向量化查询执行数据压缩并行和分布式查询实时数据更新Clickhouse 的不足:不支持事务不适合典型的 K/V 存储不适合 Blob/Document 存储不支持完整的 Update/...

大数据平台概念和架构

大数据平台概念和架构
前言今天为什么来写这个内容了,一是前些天有个非行业内的好朋友想了解下大数据相关概念的内容,搜了下网上平台相关的介绍,对于业内和业外的感觉都不太完善和直观。另外就是自己也想定时归纳下认知。所以今天特意描述下自己的拙见,也欢迎大家指点。问题在开始今天的描述前,这里我先提一个问题。假设双11马总让大家来计算下淘宝过去1小时购物车的点击次数,你打算怎么做了?我们一步步来看这个问题。什么是大数据首先既然是要获取购物车点击次数,那么我们首先得把用户的点击数据保存下来,对于淘宝来说双11数...