题目信息

  • 题目:剑指 Offer 41. 数据流中的中位数

  • 时间: 2020-08-31

  • 题目链接:Leetcode

  • tag: 大根堆 小根堆

  • 难易程度:中等

  • 题目描述:

    如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。

    设计一个支持以下两种操作的数据结构:

    • void addNum(int num) - 从数据流中添加一个整数到数据结构中。
    • double findMedian() - 返回目前所有元素的中位数。

示例1:

1
2
3
4
输入:
["MedianFinder","addNum","addNum","findMedian","addNum","findMedian"]
[[],[1],[2],[],[3],[]]
输出:[null,null,null,1.50000,null,2.00000]

示例2:

1
2
3
4
输入:
["MedianFinder","addNum","findMedian","addNum","findMedian"]
[[],[2],[],[3],[]]
输出:[null,null,2.00000,null,2.50000]

提示

1
最多会对 addNum、findMedia进行 50000 次调用。

解题思路

本题难点

给定一长度为 N 的无序数组,其中位数的计算方法:首先对数组执行排序(使用 O(NlogN) 时间),然后返回中间元素即可(使用 O(1) 时间)。如何更好的优化时间复杂度

具体思路

建立一个 大根堆 Left和小顶堆 Right ,各保存列表的一半元素,且规定:

  • Left 保存 较小 的一半,长度为 N/2( N 为偶数)或 N+1/2 (N 为奇数);
  • Right保存 较大 的一半,长度为 N/2( N 为偶数)或 N+1/2 (N 为奇数);

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
class MedianFinder {
Queue<Integer> left;
Queue<Integer> right;
/** initialize your data structure here. */
public MedianFinder() {
//大根堆,堆顶元素最大,存较小的数
left = new PriorityQueue<>((x,y) -> (y - x));
//小根堆,堆顶元素最小,存较大的数
right = new PriorityQueue<>();
}

//保证右边的小根堆数全部大于左边的大根堆的数
public void addNum(int num) {
//当前数据流中元素的个数为偶数时,即左半边大小和右半边大小相等时,
//新添加的元素要插入到右半边的小根堆中,添加后数据流元素个数为奇数,方便后面取中位数
//因为左半边的大根堆元素都要小于右半边,新插入的元素不一定比左半边元素原来的大
//利用左半边大根堆的特点,先将元素插入左半边,取出堆顶元素即为最大值再插入右半边的小根堆
if(left.size() == right.size()){
left.add(num);
right.add(left.poll());
}else{
right.add(num);
left.add(right.poll());
}
}

public double findMedian() {
//当数据流中的个数为奇数时,中位数为右半边小根堆的最小值
//当数据流中的个数为偶数时,中位数位左半边大根堆的最大值和右半边小根堆的最小值的平均
return left.size() == right.size() ? (left.peek() + right.peek()) / 2.0 : right.peek();
}
}

/**
* Your MedianFinder object will be instantiated and called as such:
* MedianFinder obj = new MedianFinder();
* obj.addNum(num);
* double param_2 = obj.findMedian();
*/

复杂度分析:

  • 时间复杂度 O(1) : 获取堆顶元素使用 O(1) 时间;
  • 空间复杂度 O(logN) : 堆的插入和弹出操作使用 O(logN) 时间。