【C++ 哈希应用】

文章目录

  • 位图
    • 概念
    • 代码实现
    • 海量数据处理
  • 布隆过滤器
    • 概念
    • 代码实现
    • 海量数据处理
  • 哈希切割海量数据处理

位图

概念

一个值在给定的集合中有两种状态,在或不在,要表示这种状态,最少可以用一个比特位,比特位为1表示在,比特位为0表示不在。
位图中的比特位的位置表示编号,比特位的内容表示是否存在。

代码实现

	template<size_t N>
	class bitset
	{
	public:
		bitset()
			:_bits(N / 32 + 1)
		{}
		//设置某一位为1
		void set(size_t pos)
		{
			size_t x = pos / 32;
			size_t y = pos % 32;

			_bits[x] |= (1 << y);
		}
		//设置某一位为0
		void reset(size_t pos)
		{
			size_t x = pos / 32;
			size_t y = pos % 32;
			_bits[x] &= ~(1 << y);
		}
		//检测某一位的值
		bool test(size_t pos)
		{
			size_t x = pos / 32;
			size_t y = pos % 32;
			return _bits[x] & (1 << pos);
		}
	private:
		vector<int> _bits;
	};

海量数据处理

  1. 给定100亿个整数,设计算法找到只出现一次的整数?
    使用两个位图标记出现的次数,(0, 0)表示出现0次,(0, 1)表示出现1次,(1,0)表示出现了两次及以上。
  2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
    整形最多有UINT_MAX个数,按照一个数一个比特位来算,差不多需要512MB,所以只需要使用两个位图标记出现的次数,最后依次遍历每一位,如果都为1,就是交集
  3. 1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数?
    结合题1和题2的思路,用1G内存创建两个位图,(0, 0)表示出现0次,(0, 1)表示出现1次,(1,0)表示出现了两次及以上。

布隆过滤器

概念

位图的位置表示编号,内容表示是否存在这个值。那如果我们想用位图来标示某一个字符串的存在呢,我们可以用字符串hash函数将字符串转换为对应的整型值,但是这个hash值可能会产生冲突。这时,有人提出一种思路,既然一个hash函数不能标定一个字符串是否存在,那么如果字符串用多个字符串hash函数映射在位图中,如果一个字符串的所有hash值在位图中都存在(对应值为1),也不能肯定这个字符串真的存在,但如果有一个hash值在位图中不存在(对应值为0),那么可以肯定这个字符串一定不存在
通过加入更多的字符串hash函数,可以使得每个字符串即使冲突,也可以通过找不在位图中的hash值来快速判断一个字符串一定不存在
注意:布隆过滤器一般不提供删除接口,因为删除之后可能存在冲突

代码实现

template<size_t N, class HashFun1 = BKDRHash, class HashFun2 = APHash, class HashFun3 = DJBHash>
class BloomFilter
{
public:
    BloomFilter()
        :_bs(new bitset<N>)
    {}
    void set(const string& s)
    {
        size_t hash1 = HashFun1()(s) % N;
        _bs->set(hash1);

        size_t hash2 = HashFun2()(s) % N;
        _bs->set(hash2);

        size_t hash3 = HashFun3()(s) % N;
        _bs->set(hash3);
    }

    bool test(const string& s)
    {
        size_t hash1 = HashFun1()(s) % N;
        if (!_bs->test(hash1))
            return false;

        size_t hash2 = HashFun2()(s) % N;
        if (!_bs->test(hash2))
            return false;

        size_t hash3 = HashFun3()(s) % N;
        if (!_bs->test(hash3))
            return false;

        return true;
    }

private:
    bitset<N>* _bs;
};

海量数据处理

  1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法
    近似算法:使用布隆过滤器,将一个文件映射到布隆过滤器中,再遍历另一个文件,查找是否存在布隆过滤器中。这种方法存在误判。
    精确算法:哈希切分使用统一的字符串hash函数,分别将两个文件的所有字符串转换为对应的hash值,对于其中一个文件,创建N 个小文件,假设N = 10000,用字符串hash值 % N,最终将字符串写入对应的文件中,另一个文件也是同样的操作,这样相同的query一定会进入到相同编号的文件中,最后将相同编号的文件读入内存中,用set进行求交集。
    如果文件太大,有两种可能:a.文件中重复query太多,此时不需要处理,set自动去重 b.文件中不同的query太多,这是可以换一个字符串hash函数,再创建文件,将字符串映射到不同的文件中,进行操作。
  2. 如何扩展BloomFilter使得它支持删除元素的操作?
    每个位位置上不再存储比特位,而是存储一个整形,当插入一个元素时,将其映射到的位的位置上的计数器加一;当删除一个元素时,将其映射到的位的位置上的计数器减一。

哈希切割海量数据处理

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
哈希切分使用统一的字符串hash函数,分别将两个文件的所有字符串转换为对应的hash值,对于其中一个文件,创建N 个小文件,假设N = 1000,用字符串hash值 % N,最终将字符串写入对应的文件中,另一个文件也是同样的操作,这样相同的IP一定会进入到相同编号的文件中,最后将相同编号的文件读入内存中,用map进行记数求出出现次数最多的IP地址
如果文件太大,有两种可能:a.文件中重复IP太多,此时不需要处理,map自形解决即可 b.文件中不同的IP太多,这是可以换一个字符串hash函数,再创建文件,将字符串映射到不同的文件中,进行操作。
与上题条件相同,如何找到top K的IP?
维护一个小根堆即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/557860.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

030——从GUI->Client->Server->driver实现对红外遥控的控制

目录 1、 解决韦东山老师irda模块中断申请失败的bug 2、 client添加处理程序 3、 添加服务器处理程序和驱动处理句柄 4、 处理数据读出不准确问题 5、 修改后的展示 1、 解决韦东山老师irda模块中断申请失败的bug irda需要通过中断来触发读操作&#xff0c;申请中断需要引…

Octopus v2:斯坦福的嵌入设备专用大模型

斯坦福大学推出了 Octopus v2&#xff0c;这是一种突破性的设备上语言模型&#xff0c;旨在解决与现有模型相关的延迟、准确性和隐私问题。 NSDT工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑…

源码篇--Nacos服务--中章(1):Nacos服务端的启动

文章目录 前言一、Nacos Console 启动入口&#xff1a;二、启动过程&#xff1a;2.1 容器启动监听器&#xff1a;2.1.1 调整启动标识为正在启动状态&#xff1a;2.1.2 环境准备阶段&#xff1a;2.1.3 容器环境准备&#xff1a;2.1.4 自定义的环境变量 设置&#xff1a;2.1.5 服…

Spectre-v2 以及 Linux Retpoline技术简介

文章目录 前言一、Executive Summary1.1 Spectre-v2: Branch Predictor Poisoning1.2 Mitigating Spectre-v2 with Retpolines1.3 Retpoline Concept 二、BackgroundExploit Composition 三、(Un-)Directing Speculative Execution四、Construction (x86)4.1 Speculation Barri…

测试人员通常遇到的“坑”

网上看到一个帖子&#xff0c;从事多年的测试从业者&#xff0c;吐槽测试过程中遇到的“坑”&#xff0c;感觉比较有意思&#xff0c;我在工作当中也遇到通常的问题&#xff0c;看得出这位网友比较喜欢总结&#xff0c;帖子地址奉上&#xff0c;有兴趣的可以浏览一下&#xff1…

bug(警告):[vue-router] Duplicate named routes definition: …

查看警告&#xff1a;[vue-router] Duplicate named routes definition——翻译[vue-router]重复命名路由定义 小编劝诫&#xff1a;当我们在开发过程中警告也一定不要忽略&#xff0c;虽然你在本地跑代码时这些警告影响项目的正常运行&#xff0c;但是会让你产生误区&#xff…

大模型日报|今日必读的8篇大模型论文

大家好&#xff0c;今日必读的大模型论文来啦&#xff01; 1.EdgeFusion&#xff1a;端侧文本到图像生成&#xff0c;只需不到一秒 用于文本到图像生成的稳定扩散&#xff08;SD&#xff09;技术需要大量计算&#xff0c;这对其实际应用构成了重大障碍。为此&#xff0c;最近…

Oracle進階SQLDay03

一、函數進階復習 1、行轉列 select 用水儿量&#xff08;噸&#xff09; 统计项, sum(case when t_account.month01 then USENUM end) 一月, sum(case when t_account.month02 then USENUM end) 二月, sum(case when t_account.month03 then USENUM end) 三月, sum(case when …

STM32学习和实践笔记(15):STM32中断系统

中断概念 CPU执行程序时&#xff0c;由于发生了某种随机的事件(外部或内部)&#xff0c;引起CPU暂 时中断正在运行的程序&#xff0c;转去执行一段特殊的服务程序(中断服务子程序 或中断处理程序)&#xff0c;以处理该事件&#xff0c;该事件处理完后又返回被中断的程序 继…

飞桨Ai(二)paddle使用CPU版本可以正常识别,切换为GPU版本时无法识别结果

一、问题描述&#xff1a; 刚开始用paddle的CPU版本&#xff0c;对训练好的模型进行推理&#xff0c;正常识别出想要的结果后来尝试使用paddle的GPU版本&#xff0c;然后发现识别出来是空的 二、系统思路&#xff1a; 最终系统环境如下&#xff1a; 系统&#xff1a;win10 …

有哪些公认好用且免费的云渲染网渲平台?渲染100邀请码1a12

现在云渲染是越来越火了&#xff0c;无论是在建筑设计、影视动画还是效果图行业都有它的身影&#xff0c;云渲染能缩短制作周期&#xff0c;提高工作效率&#xff0c;那么市面上有哪些公认好用且免费的云渲染平台呢&#xff1f;这次我们来了解下。 首先&#xff0c;我们来看看有…

vulfocus靶场tomcat-cve_2017_12615 文件上传

7.0.0-7.0.81 影响版本 Windows上的Apache Tomcat如果开启PUT方法(默认关闭)&#xff0c;则存在此漏洞&#xff0c;攻击者可以利用该漏洞上传JSP文件&#xff0c;从而导致远程代码执行。 Tomcat 是一个小型的轻量级应用服务器&#xff0c;在中小型系统和并发访问用户不是很多…

「GO基础」在Windows上配置VS Code GO语言开发环境

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

查看linux的主机配置脚本

废话不说 直接上指令 curl -Lso- bench.sh | bash 等待后&#xff0c;结果如图&#xff1a; 使用后没有问题&#xff0c;看情况使用 出事概不负责 介意勿用&#xff01;&#xff01;&#xff01;

LD-Pruner、EdgeFusion(On-Device T2I)、FreeDiff、TextCenGen、MemLLM

本文首发于公众号&#xff1a;机器感知 https://mp.weixin.qq.com/s/KiyNfwYWU-wBiCO-hE9qkA 苏 The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models Foundation models, pre-trained on a large amount of data…

Windows系统下安装paddle

开始使用_飞桨-源于产业实践的开源深度学习平台 (paddlepaddle.org.cn) 命令行下&#xff1a; python -m pip install --upgrade pip --user python -m pip install paddlepaddle2.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple 报异常 ERROR: Could not install packa…

Jmeter 测试Dubbo接口-实例

1、Dubbo插件准备 ①把jmeter-plugins-dubbo-2.7.4.1-jar-with-dependencies.jar包放在D:\apache-jmeter-5.5\lib\ext目录 ②重新打开Jmeter客户端 在线程组-添加-取样器-dubbo simple&#xff0c;添加dubbo接口请求 2、Jmeter测试lottery接口 ①配置zookeeper参数 由于dub…

windows和虚拟机互传文件

在虚拟机中设置共享文件夹 操作方法&#xff1a;打开VMware–>虚拟机–>设置–>选项–>共享文件夹&#xff08;见下图&#xff09;&#xff0c;大家在共享文件夹当中就可以把Windows当中的D盘或者其它盘共享到虚拟机中。比如我就是将D盘和E盘共享到了虚拟机中。 共…

【Vue】实现显示输入框字符长度

<div style"float: right; margin-right: 10px"><el-popover placement"top-start" width"200" trigger"hover" :content"当前输入的内容字节长度为&#xff1a; this.byteLength &#xff0c;剩余可输入的字节长度和最…

学校管网的仿写

工字形布局完成 效果 代码部分 在这里插入代码片 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport…