【数据结构】Hash表

发布时间：2021-04-01 11:22:27 所属栏目：安全来源：网络整理

导读：副标题#e# 【数据结构】Hash表 Hash表也叫散列表，是一种线性数据结构。在一般情况下，可以用o(1)的时间复杂度进行数据的增删改查。在Java开发语言中，HashMap的底层就是一个散列表。 1. 什么是Hash表 Hash表是一种线性数据结构，这种数据结构的底层一般是

同时我们还要确定下这个20亿整数的取值范围是多少。如果取值范围是1~20亿的话，我们也可以用int来存key，如果是更大的取值范围的话，就需要考虑用long来存了。我们以极端坏的情况来考虑下这个问题：也就是20一个数据全是不同的数据，这些数据的取值范围是超过20亿的，因此我们需要用long类型来存key值，应int类型来存value值，20亿条记录的话大概需要26G左右的内存空间。这样的话显然内存不足，因此一次性统计20亿个数风险很大。

解决方案：将包含有20亿个数的大文件分成16个小文件，利用哈希函数，这样的话，同一个重复的数肯定不会分到不同的文件中去，并且，如果哈希函数足够好，那么这16个文件中不同的数也不会大于2亿（20 / 16）。然后我们在这16个文件中依次统计就可以了，最后进行汇总得到重复数最多的数。（汇总的时候我只需要取出每个小文件中出现次数最多的数，然后将这16个数进行比较就行了）

问题：如果这个20亿个数都相同怎么判断呢？

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

浅析信息安全风险评估	几个机器身份管理的优
Kubernetes的零信任基	常用恶意软件剖析方法