认识elasticsearch
最近在做一个关于spark整合Elasticsearch的项目,闲暇时便在自己机器上安装了一下elasticsearch集群。关于elasticserarch,这里简单做一下介绍:它 是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。它的底层是基于Lucene实现的一个搜索引擎,关于Lucene知识,我在四年前写过几篇文章,大家可以看一下。 Luncen介绍 Luncen分词器的使用
安装
环境: JDK1.7.5...
要求
对 CSE512: Data Visualization 完成探索性数据分析。
内容
数据选择
数据来源:1960-2017年世界银行的数据。世界银行通过气候变化、经济、教育、环...
课题背景
经过一学期的大数据导论学习后,我们突然接到了结业大作业——进行一次大数据分析项目的通知。
刚刚学习了一些大纲类型的知识的我们自然是不知所措的,经过资料查阅后我们决定通过虚拟机搭建Hadoop集群进行伪分布式计算完成该项目。
然后就开始了安装了20次虚拟机的折磨之路本来打算录视频全程教程的,奈何时间紧迫,只能写一个博客帮助学弟学妹少走弯路
文中环境:
Hadoop-v3.3.1
JDK-8u202-linux-x64(1.8.202)
Ce...
部署kibana分析系统并连接es展现索引数据
1.kibana分析系统简介
Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的目的。 Elasticsearch、Logsta...
使用filebeat简单收集日志
1.filebeat原理与介绍
filebeat收集日志的原理类似于tail -f命令,等待应用日志产生后,每隔30s将日志进行收集,收集完成后存放在es的索引库中,最后展示在kibana上
当filebeat关闭后,nginx继续产生日志,filebeat再次开启时不会将原来没有收集到的日志重新收集,而是收集目前最新的日志,当日志索引库被删除后,filebeat重启之后,es上...
elasticsearch防脑裂配置
脑裂产生的原因及现象:
当公司有多个idc机房,并且有多个es集群节点,这些节点都分布在不同的机房,机房之间通过openvpn进行连接,机房1上有2个es节点,并且有1个是主节点,机房2上有2个es节点都是工作节点,当机房产生网络波动后,两个机房之间的es节点不能通信,这时机房1上的两个es节点因为有主节点的存在,依然是正常工作的,但是机房2上的es由于连接不上主节点,就认为主节点...
filebeat收集json格式的nginx日志
1.为什么要收集json格式的日志类型
由于nginx普通日志收集过来的日志内容都是存在一个字段中的值,我们想单独对日志中的某一项进行查询统计,比如我只想查看某个IP请求了我那些页面,一共访问了多少次,在普通的日志中是无法过滤的,不是很满意
如下图,可以明显的看出,收集过来的日志信息都是在一块的,不能够根据某一项内容进行查询
因此就需要让filebe...
filebeat将收集的日志存储在指定es索引库并在kibana上展示日志数据
1.为什么要指定索引库名称
由于一台机器上不止一个应用服务,比如web机器,上面一定会有tomcat、nginx、redis这种服务,如果我们不指定每个应用收集来的日志存放在es集群中的索引名的话,filebeat会将所有的日志存放在一个叫filebeat-xxx的索引库中,这样一来,我们想针对性的看某一个应用的日志将会非常困难
因此...
filebeat自定义索引名称
环境准备
IP
服务
192.168.81.210
es+kibana
192.168.81.220
es+filebeat+nginx
192.168.81.230
filebeat+nginx...
filebeat收集多个域名日志并创建不同索引
1.为什么要针对不同的应用系统创建不同的索引
公司生产环境中一台机器上一定会运行着多个域名的应用,web应用也是集群的方式,如果filebeat收集来的日志都是分散存储,且在es上建立的索引也都是分散的,这样不利于日志的聚合汇总,因此就需要把同一种应用的不同机器上的日志全部采集过来存储到一个索引库中,在kibana根据各种条件去匹配
2.搭建web集群环境
2...