Hive的高级查询

发表于 2020-05-05 | 分类于大数据

本文主要是对Hive相关的高级查询做个总结，涉及排序相关关键字(order by(),sort by(),distribute by(),cluster by())的区别；group by col和partition by col的区别、distinct和group by去重的区别以及rank(),dense_rank()和row_number()的使用及他们的区别。

阅读全文 »

JAVA 内部类

发表于 2020-05-01 | 分类于 Java

定义在一个类的内部的类叫内部类，包含内部类的类称为外部类。内部类可以声明public、protected、private、defult等访问限制，也可以声明为abstract供其他内部类或外部类继承和扩展，也可以声明为static、final。本文主要是介绍成员内部类、静态内部类、局部内部类、匿名内部类以及成员内部类和静态内部类的区别。

阅读全文 »

MapReduce中数据倾斜的原因及解决方案

发表于 2020-04-25 | 分类于大数据

数据倾斜就是在分布式计算的时候，数据的分散度不够，导致大量的数据集中到一台或几台机器上计算，导致整个任务的计算速度及效率大大下降。本文主要分析出现数据倾斜的原因及解决方案。

阅读全文 »

利用MapReduce进行全排序

发表于 2020-04-23 | 分类于大数据

本文就要是介绍三种使用MapReduce方法进行全排序，并比较三种方法的优缺点。

阅读全文 »

回溯搜索算法

发表于 2020-04-21 | 分类于 Algorithms

回溯搜索算法

回溯搜索算法也就是树形图上的深度优先搜索遍历(DFS)，只不过多了一步———状态重置，也是递归算法的运用，正因为递归有“回退”的过程，才可以更好的进行“状态重置”。

阅读全文 »

MapReduce的相关细节

发表于 2020-04-18 | 分类于大数据

MapReduce的工作流程

MapReduce 的处理过程可以理解为 Input -> map -> map-shuffle -> reduce-shuffle -> reduce -> output 几个阶段，如下图所示。

阅读全文 »

volatile关键字的作用及使用场景

发表于 2020-04-15 | 分类于 Java

volatile的作用

1.能保证共享变量的可见性，即一个线程对共享变量进行的修改，其他线程能够立即获得到修改后的值。(volatile变量值修改后，JVM会立即将缓存中的值写回主内存（刷新）)。
2.禁止操作的指令重排，保证操作的有序性。

阅读全文 »

二叉树的相关操作

发表于 2019-11-29 | 分类于 Algorithms

本篇文章包含二叉树的相关操作：前，中，后序遍历（递归和迭代）的实现；二叉树的序列化和反序列化；根据前序和中序遍历还原二叉树；根据中序和后序遍历还原二叉树；

阅读全文 »

深入理解java String

发表于 2019-11-21 | 分类于 Java

基本概述

String定义在java.lang包下的一个类，不是基本数据类型，提供了字符串的比较、查找、截取、大小写转换等操作。

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    /** The value is used for character storage. */
    private final char value[];

    /** Cache the hash code for the string */
    private int hash; // Default to 
    ...
}

阅读全文 »

Java数组

发表于 2019-11-19 | 分类于 Java

声明与初始化数组

java数组为引用类型，因此需要声明和初始化。一个数组里只能存储一种数据类型的数据，而不能存储多种数据类型的数据一旦数组的初始化完成，数组在内存中所占的空间将被固定下来，因此数组的长度将不可改变。即使把某个数组元素的数据清空，但它所占的空间依然被保留，依然属于该数组，数组的长度依然不变。

阅读全文 »