常用命令:查看hive中表的结构: desc table_name;查看hive中表的详细结构:desc formatted table_name;我们想要将hive表中的数据导出到MySQL当中,MySQL中必须要有一个表来接收,并且该表的结构要和hive当中的表结构一致,不然会报错。踩坑:hive当中的 string 字段对应 MySQL当中的 varchar 类型直接上代码: sqoop expo...
在大数据时代下,和数据打打交道是家常便饭。那么常用储存数据的一种方式:数据库,用起来那也是相当的得心应手,今天就用python连接各类常见数据库!常用数据库1.sqlite2.mysql3.postgresql4.mongodb5.redis6.hive7.clickhouse8.habse1.sqlite非常轻量的关系型数据库,不需要安装服务端,解压即用import sqlite3import pandas as pd
conn...
前言流式计算可能在日常不多见,主要统计一个阶段内的PV、UV,在风控场景很常见,比如统计某个用户一天内同地区下单总量来判断该用户是否为异常用户。还有一些大数据处理场景,如将某一段时间生成的日志按需要加工后倒入到存储DB中做查询报表。为什么要学习Flink,因为最近碰到一些实时计算性能问题,其次也不太理解实时计算底层实现原理,这里拿当下很流行的开源工具Flink作为待学习对象,一步一步深入Flink底层探索实时计算奥秘。第一个程序导maven依赖,主要依赖项如下:<pro...
大数据SPARK系列篇-1个经典的入门实例(单词统计功能)基于SCALA语言 sparkContext.textFile(“hdfs://hadoopNode1:8000/data/word.txt”).flatMap{_.split(" ")}.map{(_,1)}.reduceByKey(_+_).collect...
实验概述:1. 配置Hadoop主从服务2. 配置服务器ssh免登录3. 验证Hadoop安装成功实验目的:通过该实验后,可以独立安装配置Hadoop集群环境实验背景:本实验中会分配到三台装有Centos 7的服务器,请将其中的一台选定为主服务器(namenode),另外两台为从服务器(datanode) 。本实验以server-1为主服务器,server-2,server-3 为从服务器,实际试验中读者分配到的服务器名称不一定是叫server-1,server-2,serv...
以下操作除特殊说明外都在三个节点上操作。注意:操作前务必使三台虚拟机可以互相免密通信!一、安装Scala软件包使用xftp将软件包上传至三台虚拟机的/usr/package文件夹下创建工作目录mkdir -p /usr/scala解压缩cd /usr/package
tar -zxvf scala-2.12.12.tgz -C /usr/scala配置环境变量vi /etc/profile加入以...
准备工作:安装jdk克隆2台虚拟机完成后:新的2台虚拟机,请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做:master、node1、node2 】(虚拟机的克隆,前面的博客,三台虚拟机都要开机)这里我们安装的是Hadoop2.7.6版本:https://hadoop.apache.org/releases.html1、设置主机名与ip的映射,修改配置文件命令:vi /etc/hosts 2、将hosts文件拷...
Apache Atlas 架构图
Atlas 支持多数据源接入:Hive、HBase、Storm等
Type System
Type
Atlas 中定义了一些元数据类型
── AtlasBaseTypeDef
│ ├── AtlasEnumDef
│ └── AtlasStructDef
│ ├── AtlasBusinessMetadataDef
│ ├── AtlasClassificationDef
│...
准备工作以及安装Hadoop之前的操作和Hadoop2.X的安装相同,在我上一篇博客中,这里不做过多介绍https://www.cnblogs.com/lmandcc/p/15306163.html 1. 写一些关键脚本,利于后续集群使用 1.1集群分发脚本xsync cd /bin/vim xsyn#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]; then echo "Error:N...
1、Hive完整建表
1 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name( 2 [(col_name data_type [COMMENT col_comment], ...)] 3 ) 4 [COMMENT table_comment]
5 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]...