本文主要是对Hive相关的高级查询做个总结,涉及排序相关关键字(order by()
,sort by()
,distribute by()
,cluster by()
)的区别;group by col
和partition by col
的区别、distinct
和group by
去重的区别以及rank()
,dense_rank()
和row_number()
的使用及他们的区别。
MapReduce中数据倾斜的原因及解决方案
发表于
|
分类于
大数据
数据倾斜就是在分布式计算的时候,数据的分散度不够,导致大量的数据集中到一台或几台机器上计算,导致整个任务的计算速度及效率大大下降。本文主要分析出现数据倾斜的原因及解决方案。
MapReduce的相关细节
发表于
|
分类于
大数据
volatile关键字的作用及使用场景
发表于
|
分类于
Java
二叉树的相关操作
发表于
|
分类于
Algorithms
本篇文章包含二叉树的相关操作:前,中,后序遍历(递归和迭代)的实现;二叉树的序列化和反序列化;根据前序和中序遍历还原二叉树;根据中序和后序遍历还原二叉树;
深入理解java String
发表于
|
分类于
Java
基本概述
String
定义在java.lang
包下的一个类,不是基本数据类型, 提供了字符串的比较、查找、截取、大小写转换等操作。1
2
3
4
5
6
7
8
9public final class String
implements java.io.Serializable, Comparable<String>, CharSequence {
/** The value is used for character storage. */
private final char value[];
/** Cache the hash code for the string */
private int hash; // Default to
...
}