• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

C++ 哈希表和unordered_set + unordered_map容器

武飞扬头像
冰果滴
帮助1

目录

一.unordered_set和unordered_map的使用

二.哈希结构

1.概念

2.哈希函数

(1) 哈希函数设计原则

(2)常见哈希函数

3.哈希冲突

4.哈希冲突解决

(1)闭散列

(2)开散列

(3)开散列与闭散列比较

三.unordered_set及unordered_map模拟实现

1.哈希表改造

(1)模板 

(2)迭代器

(3)修改完善函数

哈希表改造后全部代码:

2.unordered_set

3.unordered_map


        前言:unordered_set和unordered_map是C 11中新增加的两个关联式容器,使用方式与set和map基本相同,但是unordered_set和unordered_map的底层是哈希表,而set和map的底层是红黑树。并且unordered_set不能排序;unordered_set和unordered_map是单向迭代器;效率要高一下,时间复杂度为O(1)。

一.unordered_set和unordered_map的使用

        这里unordered_set和unordered_map的使用与set和map基本相同,因此会了set和map,这两个也就会了。

二.哈希结构

1.概念

        在之前的顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(logN),搜索的效率取决于搜索过程中元素的比较次数。

       概念:可以不经过任何比较,一次直接从表中得到要搜索的元素。可以使元素的存储位置与它的关键码之间能够建立一个一个地映射的关系,在查找时可以很快找到该元素。

(1)插入元素 

        根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

(2)搜索元素

        对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功。

        该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(散列表)。

        用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。

2.哈希函数

(1) 哈希函数设计原则

① 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间

② 哈希函数计算出来的地址能均匀分布在整个空间中。

③ 哈希函数应该比较简单。

(2)常见哈希函数

① 直接定址法(常用)

        取关键字的某个线性函数为散列地址:Hash(Key) = A * Key B

        优点:简单、均匀

        缺点:需要事先知道关键字的分布情况

        使用场景:适合查找比较小且连续的情况

② 除留余数法(常用)

        设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

③ 平方取中法

        假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址。

        平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况。

④ 折叠法

        折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。

        折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况

⑤ 随机数法

        选择一个随机函数,取关键字的随机函数值为它的哈希地址,即Hash(key) = random(key),其中random为随机数函数。

        随机数法通常应用于关键字长度不等时采用此法。

⑥ 数学分析法

        设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。

        数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况。

3.哈希冲突

        对于两个数据元素的关键字 ki 和 kj (i != j),有 ki != kj ,但有:Hash(ki) == Hash(kj),即:不同关键字通过相同哈希计数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。

        把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

        引起哈希冲突的一个原因可能是:哈希函数设计不够合理。

4.哈希冲突解决

        解决哈希冲突的两种常见方法是:闭散列开散列

(1)闭散列

        闭散列也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存到冲突位置中的“下一个”空位置中去。

        那么如何去寻找下一个空位置呢?

① 线性探测

        从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

a. 插入

        通过哈希函数获取待插入元素在哈希表中的位置。

        如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

学新通

       

既然有插入,那么就有扩容,那哈希表什么时候进行扩容呢?如何扩容呢?

        扩容就由负载因子(载荷因子)来决定,负载因子:表中的元素 / 散列表的长度。

        负载因子越大,表明表中的元素越低,产生冲突的可能性就越大;反之,负载因子越小,表明表中的元素越少,产生冲突的可能性就月小。

        对于开放定址法,负载因子应控制在0.7-0.8以下。超过 0.8.会导致CPU缓存不命中。Java中限制了负载因子为0.75.

插入函数的具体实现:

        先通过调用查找函数,判断当前key是否存在,若存在就不再插入;不存在就要先判断负载因子是否到0.7及以上,到了就扩容,在扩容以后要重新映射(通过创建一个有扩容后空间的新表,然后通过遍历旧表,将其插入新表中,最后交换新旧表,这样原本的旧表就变成了新表)。

        扩容判断结束后,要准备找位置插入,首先因为不清楚要插入的类型,所以这里使用了仿函数,包括了int类型和string类型,并且为了在调用Insert时不需要传仿函数的参,就给仿函数写一个缺省,并且要把string类型的仿函数实现为特化版本。

        然后从该数应该映射的位置开始查找可以插入的位置(即state不为EXITS就可以插入),找到位置之后,插入,并更新插入的数据个数n。

b. 删除

        采用闭散列处理哈希冲突时,不能随便物理的删除哈希表中已有的元素,若直接删除元素会影响其它元素的搜索。因此线性探测采用标记的伪删除法来删除一个元素。

删除函数的具体实现:

        通过调用Find函数,查找是否存在,若存在就将该位置state标记为DELETE。 

c.查找

查找函数的具体实现:

        从要找着的数据本应映射的位置开始查找,如果没到标记为EMPTY的数据就一直去查找,直到找到了标记不为DELETE(即为EXITS)的数据并且key值相同,就说明找到了该值;若找了key值相同却为DELETE的,说明之前被删除了,而如果一直走到了EMPTY都没有找到,就一定是没有该数据了。

实现:

  1.  
    #pragma once
  2.  
     
  3.  
    namespace CloseHash
  4.  
    {
  5.  
    enum State
  6.  
    {
  7.  
    EMPTY,
  8.  
    EXITS,
  9.  
    DELETE
  10.  
    };
  11.  
     
  12.  
    template <class K, class V>
  13.  
    struct HashData
  14.  
    {
  15.  
    pair<K, V> _kv;
  16.  
    State _state = EMPTY;
  17.  
    };
  18.  
     
  19.  
    template <class K>
  20.  
    struct DefaultHash
  21.  
    {
  22.  
    size_t operator()(const K& key)
  23.  
    {
  24.  
    return (size_t)key;
  25.  
    }
  26.  
    };
  27.  
     
  28.  
    template<>
  29.  
    struct DefaultHash<string>
  30.  
    {
  31.  
    size_t operator()(const string& key)
  32.  
    {
  33.  
    // BKDR
  34.  
    size_t hash = 0;
  35.  
    for (auto ch : key)
  36.  
    {
  37.  
    hash = hash * 131 ch;
  38.  
    }
  39.  
     
  40.  
    return hash;
  41.  
    }
  42.  
    };
  43.  
     
  44.  
    template <class K, class V, class HashFunc = DefaultHash<K>>
  45.  
    class HashTable
  46.  
    {
  47.  
    typedef HashData<K, V> Data;
  48.  
    public:
  49.  
    bool Insert(const pair<K, V>& kv)
  50.  
    {
  51.  
    if (Find(kv.first))
  52.  
    {
  53.  
    return false;
  54.  
    }
  55.  
     
  56.  
    // 负载因子到0.7及以上,就扩容
  57.  
    if (_tables.size() == 0 || _n * 10 / _tables.size() >= 7)
  58.  
    {
  59.  
    size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
  60.  
    // 扩容以后,需要重新映射
  61.  
    HashTable<K, V, HashFunc> newHT;
  62.  
    newHT._tables.resize(newSize);
  63.  
    // 遍历旧表,插入newHT
  64.  
    for (auto& e : _tables)
  65.  
    {
  66.  
    if (e._state == EXITS)
  67.  
    {
  68.  
    newHT.Insert(e._kv);
  69.  
    }
  70.  
    }
  71.  
    newHT._tables.swap(_tables);
  72.  
    }
  73.  
     
  74.  
    HashFunc hf;
  75.  
    size_t starti = hf(kv.first);
  76.  
    starti %= _tables.size();
  77.  
     
  78.  
    size_t hashi = starti;
  79.  
    size_t i = 1;
  80.  
    // 线性探测/二次探测
  81.  
    while (_tables[hashi]._state == EXITS)
  82.  
    {
  83.  
    hashi == starti i;
  84.  
    i;
  85.  
    hashi %= _tables.size();
  86.  
    }
  87.  
     
  88.  
    _tables[hashi]._kv = kv;
  89.  
    _tables[hashi]._state = EXITS;
  90.  
    _n ;
  91.  
     
  92.  
    return true;
  93.  
    }
  94.  
     
  95.  
    Data* Find(const K& key)
  96.  
    {
  97.  
    if (_tables.size() == 0)
  98.  
    {
  99.  
    return nullptr;
  100.  
    }
  101.  
     
  102.  
    HashFunc hf;
  103.  
    size_t starti = hf(key);
  104.  
    starti %= _tables.size();
  105.  
     
  106.  
    size_t hashi = starti;
  107.  
    size_t i = 1;
  108.  
    while (_tables[hashi]._state != EMPTY)
  109.  
    {
  110.  
    if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
  111.  
    {
  112.  
     
  113.  
    return &_tables[hashi];
  114.  
    }
  115.  
     
  116.  
    hashi = starti i;
  117.  
    i;
  118.  
    hashi %= _tables.size();
  119.  
    }
  120.  
     
  121.  
    return nullptr;
  122.  
    }
  123.  
     
  124.  
    bool Erase(const K& key)
  125.  
    {
  126.  
    Data* ret = Find(key);
  127.  
    if (ret)
  128.  
    {
  129.  
    ret->_state = DELETE;
  130.  
    --_n;
  131.  
    return true;
  132.  
    }
  133.  
    else
  134.  
    {
  135.  
    return false;
  136.  
    }
  137.  
    }
  138.  
     
  139.  
    private:
  140.  
    vector<Data> _tables;
  141.  
    size_t _n = 0; // 存储关键字的个数
  142.  
    };
  143.  
    }
学新通

线性探测优点:实现简单

线性探测缺点:一旦发生哈希冲突,所以的冲突连在一起,容易产生数据“堆积”,即:不同关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降低。

② 二次探测

        因为线性探测的缺陷是产生冲突的数据会堆积在一块,就导致找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,就对其进行了优化:找下一个位置的方法变为Hi = (H0 i^2) % m,i为1,2,3......。即不是依次往后走了,而是变成了i^2,并且这个i会依次增大。

二次探测实现:

        二次探测的实现与线性探测基本相同,只是在插入上有一些区别,这里就不实现了。

       

        虽然二次探测是线性探测的优化,不过,二次探测在本质上并没有解决闭散列去占别人位置的问题,因此一样容易造成哈希冲突。二次探测只不过是比线性探测能少一些哈希冲突。

(2)开散列

        开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

学新通

 学新通

因此,开散列中每个桶中放的都是在闭散列中会发生哈希冲突的元素。

a.插入

插入函数的具体实现:

        先通过调用查找函数,判断当前key是否存在,若存在就不再插入;不存在就要先判断负载因子是否到1及以上,到了就扩容,在扩容以后要重新映射(通过创建一个有扩容后空间的新表,然后通过遍历旧表,将旧表中桶的元素插入新表中,这样原本的旧表就不需要清理【已经全部转移到了新表中】,最后交换新旧表,旧表就变成了新表)。

        扩容判断结束后,要准备找位置插入,首先因为不清楚要插入的类型,所以这里使用了仿函数,包括了int类型和string类型,并且为了在调用Insert时不需要传仿函数的参,就给仿函数写一个缺省,并且要把string类型的仿函数实现为特化版本。

        然后从先得到该数应该映射的位置并进行头插,并更新插入的数据个数n。

b.删除

删除函数的具体实现:

        因为是在一个数组上的每个元素下有一个链表,因此要想删除一个元素,我们可以进行头删(单链表头删效率高)。首先定义一个prev,然后找到对应的key时,如果这个元素是链表头,就要改头的下一个位置的元素变成新的链表头;如果不是,就将prev的next直接链接到当前key的下一个元素,最后delete掉即可。(这里始终保证prev是cur的上一个元素)。

c.查找

查找函数的具体实现:

         这个就是找到对应的桶,然后进行查找即可(单链表查找)。

开散列实现:

  1.  
    #pragma once
  2.  
     
  3.  
    namespace Bucket
  4.  
    {
  5.  
    template <class K, class V>
  6.  
    struct HashNode
  7.  
    {
  8.  
    pair<K, V> _kv;
  9.  
    HashNode<K, V>* _next;
  10.  
     
  11.  
    HashNode(const pair<K, V>& kv)
  12.  
    : _kv(kv)
  13.  
    , _next(nullptr)
  14.  
    {}
  15.  
    };
  16.  
     
  17.  
    template <class K, class V, class HashFunc = DefaultHash<K>>
  18.  
    class HashTable
  19.  
    {
  20.  
    typedef HashNode<K, V> Node;
  21.  
    public:
  22.  
    ~HashTable()
  23.  
    {
  24.  
    for (size_t i = 0; i < _tables.size(); i)
  25.  
    {
  26.  
    Node* cur = _tables[i];
  27.  
    while (cur)
  28.  
    {
  29.  
     
  30.  
    Node* next = cur->_next;
  31.  
    delete cur;
  32.  
    cur = next;
  33.  
    }
  34.  
     
  35.  
    _tables[i] = nullptr;
  36.  
    }
  37.  
    }
  38.  
     
  39.  
    bool Insert(const pair<K, V>& kv)
  40.  
    {
  41.  
    if (Find(kv.first))
  42.  
    {
  43.  
    return false;
  44.  
    }
  45.  
     
  46.  
    HashFunc hf;
  47.  
     
  48.  
    // 负载因子 == 1 扩容
  49.  
    if (_tables.size() == _n)
  50.  
    {
  51.  
    size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
  52.  
    vector<Node*> newTable;
  53.  
    newTable.resize(newSize, nullptr);
  54.  
    for (size_t i = 0; i < _tables.size(); i)
  55.  
    {
  56.  
    Node* cur = _tables[i];
  57.  
    while (cur)
  58.  
    {
  59.  
    Node* next = cur->_next;
  60.  
     
  61.  
    size_t hashi = hf(cur->_kv.first) % newSize;
  62.  
    cur->_next = newTable[hashi];
  63.  
    newTable[hashi] = cur;
  64.  
     
  65.  
    cur = next;
  66.  
    }
  67.  
     
  68.  
    _tables[i] = nullptr;
  69.  
    }
  70.  
     
  71.  
    newTable.swap(_tables);
  72.  
    }
  73.  
     
  74.  
    size_t hashi = hf(kv.first);
  75.  
    hashi %= _tables.size();
  76.  
     
  77.  
    // 头插到对应的桶
  78.  
    Node* newnode = new Node(kv);
  79.  
    newnode->_next = _tables[hashi];
  80.  
    _tables[hashi] = newnode;
  81.  
     
  82.  
    _n;
  83.  
     
  84.  
    return true;
  85.  
    }
  86.  
     
  87.  
    Node* Find(const K& key)
  88.  
    {
  89.  
    if (_tables.size() == 0)
  90.  
    {
  91.  
    return nullptr;
  92.  
    }
  93.  
     
  94.  
    HashFunc hf;
  95.  
    size_t hashi = hf(key);
  96.  
    hashi %= _tables.size();
  97.  
    Node* cur = _tables[hashi];
  98.  
    while (cur)
  99.  
    {
  100.  
    if (cur->_kv.first == key)
  101.  
    {
  102.  
    return cur;
  103.  
    }
  104.  
     
  105.  
    cur = cur->_next;
  106.  
    }
  107.  
     
  108.  
    return nullptr;
  109.  
    }
  110.  
     
  111.  
    bool Erase(const K& key)
  112.  
    {
  113.  
    if (_tables.size() == 0)
  114.  
    {
  115.  
    return false;
  116.  
    }
  117.  
     
  118.  
    HashFunc hf;
  119.  
    size_t hashi = hf(key);
  120.  
    hashi %= _tables.size();
  121.  
    Node* prev = nullptr;
  122.  
    Node* cur = _tables[hashi];
  123.  
    while (cur)
  124.  
    {
  125.  
    if (cur->_kv.first == key)
  126.  
    {
  127.  
    if (prev == nullptr)
  128.  
    {
  129.  
    _tables[hashi] = cur->_next;
  130.  
    }
  131.  
    else
  132.  
    {
  133.  
    prev->_next = cur->_next;
  134.  
    }
  135.  
     
  136.  
    delete cur;
  137.  
     
  138.  
    return true;
  139.  
    }
  140.  
     
  141.  
    prev = cur;
  142.  
    cur = cur->_next;
  143.  
    }
  144.  
     
  145.  
    return false;
  146.  
    }
  147.  
    private:
  148.  
    vector<Node*> _tables; // 指针数组
  149.  
    size_t _n = 0;
  150.  
    };
  151.  
    }
学新通

(3)开散列与闭散列比较

        开散列(链地址法)处理溢出,需要增设链接指针,似乎增加了存储开销。事实上,由于闭散列(开地址法)必须保持大量的空闲空间以确保搜索效率,导致闭散列表项所占空间比指针大的多。因此使用开散列(链地址法)要比闭散列(开地址法)节省存储空间。

三.unordered_set及unordered_map模拟实现

1.哈希表改造

        为了用哈希表去封装unordered_set和unordered_map(这里用的是开散列封装),就要去改造哈希表,然后在unordered_set和unordered_map中调用哈希表函数即可。而如何改造,模板和迭代器是关键。

        

        这里类似于之前模拟实现的set和map,但是哈希表要再稍微麻烦一些。

(1)模板 

        这里模板的K就是key,但是因为要封装unordered_set和unordered_map,所以我们不确定下一个参数是不是V,因此这个T是决定存什么的,如果是unordered_set就是K,如果是unordered_map就是V。

        KeyOfT仿函数就是用在封装时,到底是unordered_set返回key,还是unordered_map返回kv.first,这里需要作为区分。

        HashFunc仿函数就是因为我们不知道存的数据是什么,所以对存的数据的不同,要进行不同的处理。

template <class K, class T, class KeyOfT, class HashFunc>

(2)迭代器

        迭代器需要我们自己封装实现,这里的成员变量分别是 结点,和指向哈希表的指针

        然后实现*,->,!=,==, 的操作符重载(这里不需要实现 --的操作符重载,因为哈希表的是单向迭代器)。

        这些操作符重载的实现比较简单,只有 需要去进行查找。

  1.  
    template <class T>
  2.  
    struct HashNode
  3.  
    {
  4.  
    T _data;
  5.  
    HashNode<T>* _next;
  6.  
     
  7.  
    HashNode(const T& data)
  8.  
    : _data(data)
  9.  
    , _next(nullptr)
  10.  
    {}
  11.  
    };
  12.  
     
  13.  
    template <class K, class T, class KeyOfT, class HashFunc>
  14.  
    class HashTable;
  15.  
     
  16.  
    template<class K, class T, class KeyOfT, class HashFunc>
  17.  
    class __HTIterator
  18.  
    {
  19.  
    typedef HashNode<T> Node;
  20.  
    typedef __HTIterator<K, T, KeyOfT, HashFunc> Self;
  21.  
    public:
  22.  
    Node* _node;
  23.  
    HashTable<K, T, KeyOfT, HashFunc>* _pht;
  24.  
     
  25.  
    __HTIterator()
  26.  
    {}
  27.  
     
  28.  
    __HTIterator(Node* node, HashTable<K, T, KeyOfT, HashFunc>* pht)
  29.  
    : _node(node)
  30.  
    , _pht(pht)
  31.  
    {}
  32.  
     
  33.  
    Self& operator ()
  34.  
    {
  35.  
    if (_node->_next)
  36.  
    {
  37.  
    _node = _node->_next;
  38.  
    }
  39.  
    else
  40.  
    {
  41.  
    KeyOfT kot;
  42.  
    HashFunc hf;
  43.  
    size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
  44.  
    hashi;
  45.  
    // 找下一个不为空的桶
  46.  
    for (; hashi < _pht->_tables.size(); hashi)
  47.  
    {
  48.  
    if (_pht->_tables[hashi])
  49.  
    {
  50.  
    _node = _pht->_tables[hashi];
  51.  
    break;
  52.  
    }
  53.  
    }
  54.  
     
  55.  
    // 没有找到不为空的桶,用nullptr去做end标识
  56.  
    if (hashi == _pht->_tables.size())
  57.  
    {
  58.  
    _node = nullptr;
  59.  
    }
  60.  
    }
  61.  
     
  62.  
    return *this;
  63.  
    }
  64.  
     
  65.  
    T& operator*()
  66.  
    {
  67.  
    return _node->_data;
  68.  
    }
  69.  
     
  70.  
    T* operator->()
  71.  
    {
  72.  
    return &_node->_data;
  73.  
    }
  74.  
     
  75.  
    bool operator!=(const Self& s) const
  76.  
    {
  77.  
    return _node != s._node;
  78.  
    }
  79.  
     
  80.  
    bool operator==(const Self& s) const
  81.  
    {
  82.  
    return _node == s._node;
  83.  
    }
  84.  
    };
学新通

(3)修改完善函数

        接下来就要把之前所实现的函数进行修改完善,并且因为多了迭代器,所以也要实现迭代器的接口函数。

        迭代器的begin和end实现比较简单,注意这里的返回值,返回值是一个利用当前结点和当前指向哈希表的指针构造的iterator。

        为了unordered_map的[]操作符重载的实现,我们需要对Insert和的Find返回值进行修改,Insert函数的返回值需要是一个pair类型的(其中一个是iterator类型,另一个是bool类型)。

        iterator类型就是为了调用[]后可以得到当前的迭代器,而bool类型是为了判断是否插入成功的。

        查找函数也需要修改一下返回值,它的返回值要改成迭代器,找到了就要返回这个函数的迭代器,这样在插入函数中才能得到其对应的迭代器。

        

        这里还有一个优化,就是让扩容后的值是质数。这个在C 的STL源码中是进行了这个修改的,但是java中并没有,所以也不是很确定这个优化到底如何。

优化如下:

  1.  
    size_t GetNextPrime(size_t prime)
  2.  
    {
  3.  
    const int PRIMECOUNT = 28;
  4.  
    static const size_t primeList[PRIMECOUNT] =
  5.  
    {
  6.  
    53ul, 97ul, 193ul, 389ul, 769ul,
  7.  
    1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
  8.  
    49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
  9.  
    1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
  10.  
    50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
  11.  
    1610612741ul, 3221225473ul, 4294967291ul
  12.  
    };
  13.  
     
  14.  
    // 获取比prime大那一个素数
  15.  
    size_t i = 0;
  16.  
    for (; i < PRIMECOUNT; i)
  17.  
    {
  18.  
    if (primeList[i] > prime)
  19.  
    return primeList[i];
  20.  
    }
  21.  
     
  22.  
    return primeList[i];
  23.  
    }
  24.  
     
  25.  
    pair<iterator, bool> Insert(const T& data)
  26.  
    {
  27.  
    HashFunc hf;
  28.  
    KeyOfT kot;
  29.  
     
  30.  
    iterator pos = Find(kot(data));
  31.  
    if (pos != end())
  32.  
    {
  33.  
    return make_pair(pos, false);
  34.  
    }
  35.  
     
  36.  
    // 负载因子 == 1 扩容
  37.  
    if (_tables.size() == _n)
  38.  
    {
  39.  
    //size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
  40.  
    size_t newSize = GetNextPrime(_tables.size());
  41.  
    if (newSize != _tables.size())
  42.  
    {
  43.  
    vector<Node*> newTable;
  44.  
    newTable.resize(newSize, nullptr);
  45.  
    for (size_t i = 0; i < _tables.size(); i)
  46.  
    {
  47.  
    Node* cur = _tables[i];
  48.  
    while (cur)
  49.  
    {
  50.  
    Node* next = cur->_next;
  51.  
     
  52.  
    size_t hashi = hf(kot(cur->_data)) % newSize;
  53.  
    cur->_next = newTable[hashi];
  54.  
    newTable[hashi] = cur;
  55.  
     
  56.  
    cur = next;
  57.  
    }
  58.  
     
  59.  
    _tables[i] = nullptr;
  60.  
    }
  61.  
     
  62.  
    newTable.swap(_tables);
  63.  
    }
  64.  
    }
  65.  
     
  66.  
    size_t hashi = hf(kot(data));
  67.  
    hashi %= _tables.size();
  68.  
     
  69.  
    // 头插到对应的桶
  70.  
    Node* newnode = new Node(data);
  71.  
    newnode->_next = _tables[hashi];
  72.  
    _tables[hashi] = newnode;
  73.  
     
  74.  
    _n;
  75.  
     
  76.  
    return make_pair(iterator(newnode, this), true);
  77.  
    }
学新通

哈希表改造后全部代码:

  1.  
    #pragma once
  2.  
     
  3.  
    template <class K>
  4.  
    struct DefaultHash
  5.  
    {
  6.  
    size_t operator()(const K& key)
  7.  
    {
  8.  
    return (size_t)key;
  9.  
    }
  10.  
    };
  11.  
     
  12.  
    template<>
  13.  
    struct DefaultHash<string>
  14.  
    {
  15.  
    size_t operator()(const string& key)
  16.  
    {
  17.  
    // BKDR
  18.  
    size_t hash = 0;
  19.  
    for (auto ch : key)
  20.  
    {
  21.  
    hash = hash * 131 ch;
  22.  
    }
  23.  
     
  24.  
    return hash;
  25.  
    }
  26.  
    };
  27.  
     
  28.  
    namespace Bucket
  29.  
    {
  30.  
    template <class T>
  31.  
    struct HashNode
  32.  
    {
  33.  
    T _data;
  34.  
    HashNode<T>* _next;
  35.  
     
  36.  
    HashNode(const T& data)
  37.  
    : _data(data)
  38.  
    , _next(nullptr)
  39.  
    {}
  40.  
    };
  41.  
     
  42.  
    template <class K, class T, class KeyOfT, class HashFunc>
  43.  
    class HashTable;
  44.  
     
  45.  
    template<class K, class T, class KeyOfT, class HashFunc>
  46.  
    class __HTIterator
  47.  
    {
  48.  
    typedef HashNode<T> Node;
  49.  
    typedef __HTIterator<K, T, KeyOfT, HashFunc> Self;
  50.  
    public:
  51.  
    Node* _node;
  52.  
    HashTable<K, T, KeyOfT, HashFunc>* _pht;
  53.  
     
  54.  
    __HTIterator()
  55.  
    {}
  56.  
     
  57.  
    __HTIterator(Node* node, HashTable<K, T, KeyOfT, HashFunc>* pht)
  58.  
    : _node(node)
  59.  
    , _pht(pht)
  60.  
    {}
  61.  
     
  62.  
    Self& operator ()
  63.  
    {
  64.  
    if (_node->_next)
  65.  
    {
  66.  
    _node = _node->_next;
  67.  
    }
  68.  
    else
  69.  
    {
  70.  
    KeyOfT kot;
  71.  
    HashFunc hf;
  72.  
    size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
  73.  
    hashi;
  74.  
    // 找下一个不为空的桶
  75.  
    for (; hashi < _pht->_tables.size(); hashi)
  76.  
    {
  77.  
    if (_pht->_tables[hashi])
  78.  
    {
  79.  
    _node = _pht->_tables[hashi];
  80.  
    break;
  81.  
    }
  82.  
    }
  83.  
     
  84.  
    // 没有找到不为空的桶,用nullptr去做end标识
  85.  
    if (hashi == _pht->_tables.size())
  86.  
    {
  87.  
    _node = nullptr;
  88.  
    }
  89.  
    }
  90.  
     
  91.  
    return *this;
  92.  
    }
  93.  
     
  94.  
    T& operator*()
  95.  
    {
  96.  
    return _node->_data;
  97.  
    }
  98.  
     
  99.  
    T* operator->()
  100.  
    {
  101.  
    return &_node->_data;
  102.  
    }
  103.  
     
  104.  
    bool operator!=(const Self& s) const
  105.  
    {
  106.  
    return _node != s._node;
  107.  
    }
  108.  
     
  109.  
    bool operator==(const Self& s) const
  110.  
    {
  111.  
    return _node == s._node;
  112.  
    }
  113.  
    };
  114.  
     
  115.  
    // unordered_map ->HashTable<K, pair<K, V>, MapKeyOfT> _ht;
  116.  
    // unordered_set ->HashTable<K, K, SetKeyOfT> _ht;
  117.  
    template <class K, class T, class KeyOfT, class HashFunc>
  118.  
    class HashTable
  119.  
    {
  120.  
    template <class K, class T, class KeyOfT, class HashFunc>
  121.  
    friend class __HTIterator;
  122.  
     
  123.  
    typedef HashNode<T> Node;
  124.  
    public:
  125.  
    typedef __HTIterator<K, T, KeyOfT, HashFunc> iterator;
  126.  
     
  127.  
    iterator begin()
  128.  
    {
  129.  
    for (size_t i = 0; i < _tables.size(); i)
  130.  
    {
  131.  
    Node* cur = _tables[i];
  132.  
    if (cur)
  133.  
    {
  134.  
    return iterator(cur, this);
  135.  
    }
  136.  
    }
  137.  
     
  138.  
    return end();
  139.  
    }
  140.  
     
  141.  
    iterator end()
  142.  
    {
  143.  
    return iterator(nullptr, this);
  144.  
    }
  145.  
     
  146.  
    ~HashTable()
  147.  
    {
  148.  
    for (size_t i = 0; i < _tables.size(); i)
  149.  
    {
  150.  
    Node* cur = _tables[i];
  151.  
    while (cur)
  152.  
    {
  153.  
     
  154.  
    Node* next = cur->_next;
  155.  
    delete cur;
  156.  
    cur = next;
  157.  
    }
  158.  
     
  159.  
    _tables[i] = nullptr;
  160.  
    }
  161.  
    }
  162.  
     
  163.  
    size_t GetNextPrime(size_t prime)
  164.  
    {
  165.  
    const int PRIMECOUNT = 28;
  166.  
    static const size_t primeList[PRIMECOUNT] =
  167.  
    {
  168.  
    53ul, 97ul, 193ul, 389ul, 769ul,
  169.  
    1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
  170.  
    49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
  171.  
    1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
  172.  
    50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
  173.  
    1610612741ul, 3221225473ul, 4294967291ul
  174.  
    };
  175.  
     
  176.  
    // 获取比prime大那一个素数
  177.  
    size_t i = 0;
  178.  
    for (; i < PRIMECOUNT; i)
  179.  
    {
  180.  
    if (primeList[i] > prime)
  181.  
    return primeList[i];
  182.  
    }
  183.  
     
  184.  
    return primeList[i];
  185.  
    }
  186.  
     
  187.  
    pair<iterator, bool> Insert(const T& data)
  188.  
    {
  189.  
    HashFunc hf;
  190.  
    KeyOfT kot;
  191.  
     
  192.  
    iterator pos = Find(kot(data));
  193.  
    if (pos != end())
  194.  
    {
  195.  
    return make_pair(pos, false);
  196.  
    }
  197.  
     
  198.  
    // 负载因子 == 1 扩容
  199.  
    if (_tables.size() == _n)
  200.  
    {
  201.  
    //size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
  202.  
    size_t newSize = GetNextPrime(_tables.size());
  203.  
    if (newSize != _tables.size())
  204.  
    {
  205.  
    vector<Node*> newTable;
  206.  
    newTable.resize(newSize, nullptr);
  207.  
    for (size_t i = 0; i < _tables.size(); i)
  208.  
    {
  209.  
    Node* cur = _tables[i];
  210.  
    while (cur)
  211.  
    {
  212.  
    Node* next = cur->_next;
  213.  
     
  214.  
    size_t hashi = hf(kot(cur->_data)) % newSize;
  215.  
    cur->_next = newTable[hashi];
  216.  
    newTable[hashi] = cur;
  217.  
     
  218.  
    cur = next;
  219.  
    }
  220.  
     
  221.  
    _tables[i] = nullptr;
  222.  
    }
  223.  
     
  224.  
    newTable.swap(_tables);
  225.  
    }
  226.  
    }
  227.  
     
  228.  
    size_t hashi = hf(kot(data));
  229.  
    hashi %= _tables.size();
  230.  
     
  231.  
    // 头插到对应的桶
  232.  
    Node* newnode = new Node(data);
  233.  
    newnode->_next = _tables[hashi];
  234.  
    _tables[hashi] = newnode;
  235.  
     
  236.  
    _n;
  237.  
     
  238.  
    return make_pair(iterator(newnode, this), true);
  239.  
    }
  240.  
     
  241.  
    iterator Find(const K& key)
  242.  
    {
  243.  
    if (_tables.size() == 0)
  244.  
    {
  245.  
    return iterator(nullptr, this);
  246.  
    }
  247.  
     
  248.  
    KeyOfT kot;
  249.  
    HashFunc hf;
  250.  
    size_t hashi = hf(key);
  251.  
    hashi %= _tables.size();
  252.  
    Node* cur = _tables[hashi];
  253.  
    while (cur)
  254.  
    {
  255.  
    if (kot(cur->_data) == key)
  256.  
    {
  257.  
    return iterator(cur, this);
  258.  
    }
  259.  
     
  260.  
    cur = cur->_next;
  261.  
    }
  262.  
     
  263.  
    return iterator(nullptr, this);
  264.  
    }
  265.  
     
  266.  
    bool Erase(const K& key)
  267.  
    {
  268.  
    if (_tables.size() == 0)
  269.  
    {
  270.  
    return false;
  271.  
    }
  272.  
     
  273.  
    HashFunc hf;
  274.  
    KeyOfT kot;
  275.  
    size_t hashi = hf(key);
  276.  
    hashi %= _tables.size();
  277.  
    Node* prev = nullptr;
  278.  
    Node* cur = _tables[hashi];
  279.  
    while (cur)
  280.  
    {
  281.  
    if (kot(cur->_data) == key)
  282.  
    {
  283.  
    if (prev == nullptr)
  284.  
    {
  285.  
    _tables[hashi] = cur->_next;
  286.  
    }
  287.  
    else
  288.  
    {
  289.  
    prev->_next = cur->_next;
  290.  
    }
  291.  
     
  292.  
    delete cur;
  293.  
     
  294.  
    return true;
  295.  
    }
  296.  
     
  297.  
    prev = cur;
  298.  
    cur = cur->_next;
  299.  
    }
  300.  
     
  301.  
    return false;
  302.  
    }
  303.  
    private:
  304.  
    vector<Node*> _tables; // 指针数组
  305.  
    size_t _n = 0;
  306.  
    };
  307.  
    }
学新通

接下来封装unordered_set和unordered_map就比较简单了。 

2.unordered_set

        unordered_set是K模型的,因此这里仿函数HashFunc中返回的返回的key。

        其它接口都是去调用改造后的哈希表。

  1.  
    #pragma once
  2.  
     
  3.  
    #include "HashTable.h"
  4.  
     
  5.  
    namespace hb
  6.  
    {
  7.  
    template <class K, class HashFunc = DefaultHash<K>>
  8.  
    class unordered_set
  9.  
    {
  10.  
    struct SetKeyOfT
  11.  
    {
  12.  
    const K& operator()(const K& key)
  13.  
    {
  14.  
    return key;
  15.  
    }
  16.  
    };
  17.  
    public:
  18.  
    typedef typename Bucket::HashTable<K, K, SetKeyOfT, HashFunc>::iterator iterator;
  19.  
     
  20.  
    iterator begin()
  21.  
    {
  22.  
    return _ht.begin();
  23.  
    }
  24.  
     
  25.  
    iterator end()
  26.  
    {
  27.  
    return _ht.end();
  28.  
    }
  29.  
     
  30.  
    pair<iterator, bool> insert(const K& key)
  31.  
    {
  32.  
    return _ht.Insert(key);
  33.  
    }
  34.  
     
  35.  
    iterator find(const K& key)
  36.  
    {
  37.  
    return _ht.Find(key);
  38.  
    }
  39.  
     
  40.  
    bool erase(const K& key)
  41.  
    {
  42.  
    return _ht.Erase(key);
  43.  
    }
  44.  
    private:
  45.  
    Bucket::HashTable<K, K, SetKeyOfT, HashFunc> _ht;
  46.  
    };
  47.  
    }
学新通

3.unordered_map

        unordered_map是K,V模型的,因此这里仿函数HashFunc中返回的返回的kv.first。

        其它接口都是去调用改造后的哈希表。这里就注意一下[]操作符的实现即可。

  1.  
    #pragma once
  2.  
     
  3.  
    #include "HashTable.h"
  4.  
     
  5.  
    namespace hb
  6.  
    {
  7.  
    template<class K, class V, class HashFunc = DefaultHash<K>>
  8.  
    class unordered_map
  9.  
    {
  10.  
    struct MapKeyOfT
  11.  
    {
  12.  
    const K& operator()(const pair<K, V>& kv)
  13.  
    {
  14.  
    return kv.first;
  15.  
    }
  16.  
    };
  17.  
    public:
  18.  
    typedef typename Bucket::HashTable<K, pair<K, V>, MapKeyOfT, HashFunc>::iterator iterator;
  19.  
     
  20.  
    iterator begin()
  21.  
    {
  22.  
    return _ht.begin();
  23.  
    }
  24.  
     
  25.  
    iterator end()
  26.  
    {
  27.  
    return _ht.end();
  28.  
    }
  29.  
     
  30.  
    pair<iterator, bool> insert(const pair<K, V>& kv)
  31.  
    {
  32.  
    return _ht.Insert(kv);
  33.  
    }
  34.  
     
  35.  
    iterator find(const K& key)
  36.  
    {
  37.  
    return _ht.Find(key);
  38.  
    }
  39.  
     
  40.  
    bool erase(const K& key)
  41.  
    {
  42.  
    return _ht.Erase(key);
  43.  
    }
  44.  
     
  45.  
    V& operator[](const K& key)
  46.  
    {
  47.  
    pair<iterator, bool> ret = insert(make_pair(key, V()));
  48.  
    return ret.first->second;
  49.  
    }
  50.  
    private:
  51.  
    Bucket::HashTable<K, pair<K, V>, MapKeyOfT, HashFunc> _ht;
  52.  
    };
  53.  
    }
学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhficeeb
系列文章
更多 icon
同类精品
更多 icon
继续加载