2024年10月哪个哈希函数还不能进行碰撞？hash函数强抗碰撞性和弱碰撞性的区别

更新时间：2024-10-12

　　⑴哪个哈希函数还不能进行碰撞？hash函数强抗碰撞性和弱碰撞性的区别

　　⑵哪个哈希函数还不能进行碰撞

　　⑶MD和SHA哈希函数还不能进行碰撞。因为MD和SHA是杂凑函数，所以不能进行碰撞。哈希函数就是指没有冲突的哈希函数。

　　⑷hash函数强抗碰撞性和弱碰撞性的区别

　　⑸假如有两个不同的数据(或字符串)生成的散列值相同，这就说明哈希值碰撞了，这时候就需要单独开一个表，用另一种哈希算法重新提取这两个数据(或字符串)的散列值放入其中，这个新散列表中的数据还可以用相同的方法再开新表，开出的新表越多抗碰撞性就越强

　　⑹hash碰撞解决办法

　　⑺在hash碰撞的情况下，主要的处理方法有：.开放地址法开放地执法有一个公式:Hi=(H(key)+di)MODmi=,,…,k(k《=m-)基本思想：当发生地址冲突时，按照某种方法继续探测哈希表中的其他存储单元，直到找到空位置为止。.rehash（再hash法使用第二个或第三个...计算地址，知道无冲突。比如：按首字母进行hash冲突了，则按照首字母第二位，进行hash寻址。.链地址法（拉链法创建一个链表数组，数组中每一格就是一个链表。若遇到哈希冲突，则将冲突的值加到链表中即可。javahashmap使用的就是拉链法解决hash碰撞。哈希表是由链表+数组组成。通过hash(key)%len存储到相对应的数组中，如%=.意味着数组下标相同，并不表示hashCode相同。

　　⑻python之哈希算法

　　⑼哈希(Hash)算法：`hash（object`哈希算法将一个不定长的输入，通过散列函数变换成一个定长的输出，即散列值。是一种信息摘要算法。对象的hash值比原对象拥有更低的内存复杂度。它不同于加密。哈希（hash是将目标文本转换成具有相同长度的，不可逆的杂凑字符串，而加密则是将文本转换为具有相同长度的，可逆的密文。哈希（hash算法是不可逆的，只能由输入产生输出，不能由输出产生输入。而加密则是可逆的。即可以从输入产生输出，也可以反过来从输出推出输入。对于hash算法，不同的数据应该生成不同的哈希值。如果两个不同的数据经过Hash函数计算得到的Hash值一样。就称为哈希碰撞（collision。哈希碰撞无法被完全避免。只能降低发生概率。好的hash函数会导致最少的hash碰撞。*可哈希性（hashable：可哈希的数据类型为不可变的数据结构（如字符串srt，元组tuple，对象集objects等。这种数据被称为可哈希性。不可哈希性：不可哈希的数据类型，为可变的数据结构（如字典dict，列表list和集合set等。如果对可变的对象进行哈希处理，则每次对象更新时，都需要更新哈希表。这样我们则需要将对象移至不同的数据集，这种操作会使花费过大。因此设定不能对可变的对象进行hash处理。****Python.x添加了hash算法的随机性，以提高安全性，因此对于每个新的python调用，同样的数据源生成的结果都将不同。哈希方法有（MD,SHA,SHA与SHA等。常用的有SH与SHA。MD与SHA不再常用。-MDH(不常用)-SHA(不常用)-SHA(常用)-SHA(常用)一种局部敏感的hash算法，它产生的签名在一定程度上可以表征原内容的相似度。》可以被用来比较文本的相似度。安装simhash：Pipinstallsimhash感知哈希算法（perceptualHashAlgorithm。用于检测图像和视频的差异。安装Imagehash:pipinstallImagehash比较下面两张图片的Imagehash值可以看到两张图片的hash值非常相似。相似的图片可以生成相似的哈希值是Imagehash的特点。

　　⑽哈希函数的本质及生成方式

　　⑾哈希表与哈希函数说到哈希表，其实本质上是一个数组。通过前面的学习我们知道了，如果要访问一个数组中某个特定的元素，那么需要知道这个元素的索引。例如，我们可以用数组来记录自己好友的电话号码，索引指向的元素记录着A的电话号码，索引指向的元素记录着B的电话号码，以此类推。而当这个数组非常大的时候，全凭记忆去记住哪个索引记录着哪个好友的号码是非常困难的。这时候如果有一个函数，可以将我们好友的姓名作为一个输入，然后输出这个好友的号码在数组中对应的索引，是不是就方便了很多呢？这样的一种函数，其实就是哈希函数。哈希函数的定义是将任意长度的一个对象映射到一个固定长度的值上，而这个值我们可以称作是哈希值（HashValue。哈希函数一般会有以下三个特性：任何对象作为哈希函数的输入都可以得到一个相应的哈希值；两个相同的对象作为哈希函数的输入，它们总会得到一样的哈希值；两个不同的对象作为哈希函数的输入，它们不一定会得到不同的哈希值。对于哈希函数的前两个特性，比较好理解，但是对于第三种特性，我们应该如何解读呢？那下面就通过一个例子来说明。我们按照JavaString类里的哈希函数公式（即下面的公式来计算出不同字符串的哈希值。String类里的哈希函数是通过hashCode函数来实现的，这里假设哈希函数的字符串输入为s，所有的字符串都会通过以下公式来生成一个哈希值：?这里为什么是“”？下面会讲到哦~注意：下面所有字符的数值都是按照ASCII表获得的，具体的数值可以在这里查阅。如果我们输入“ABC”这个字符串，那根据上面的哈希函数公式，它的哈希值则为：?在什么样的情况下会体现出哈希函数的第三种特性呢？我们再来看看下面这个例子。现在我们想要计算字符串“Aa“和“BB“的哈希值，还是继续套用上面的的公式。“Aa“的哈希值为：“Aa“=’A’*+’a’=*+=“BB“的哈希值为：“BB“=’B’*+’B’=*+=可以看到，不同的两个字符串其实是会输出相同的哈希值出来的，这时候就会造成哈希碰撞，具体的解决方法将会在第讲中详细讨论。需要注意的是，虽然hashCode的算法里都是加法，但是算出来的哈希值有可能会是一个负数。我们都知道，在计算机里，一个位int类型的整数里最高位如果是则表示这个数是非负数，如果是则表示是负数。如果当字符串通过计算算出的哈希值大于-时，也就是大于位整数所能表达的最大正整数了，则会造成溢出，此时哈希值就变为负数了。感兴趣的小伙伴可以按照上面的公式，自行计算一下“”这个字符串的哈希值会是多少。hashCode函数中的“魔数”（Magiumber细心的你一定发现了，上面所讲到的JavaString类里的hashCode函数，一直在使用一个这样的正整数来进行计算，这是为什么呢？下面一起来研究一下JavaOpenjdk-jdk中String.java的源码（源码链接，看看这么做有什么好处。publicinthashCode(){inth=hash;if(h==&&value.length》){hash=h=isLatin()?StringLatin.hashCode(value):StringUTF.hashCode(value);}return可以看到，String类的hashCode函数依赖于StringLatin和StringUTF类的具体实现。而StringLatin类中的hashCode函数（源码链接和StringUTF类中的hashCode函数（源码链接所表达的算法其实是一致的。StringLatin类中的hashCode函数如下面所示：publicstaticinthashCode(bytevalue){inth=;for(bytev:value){h=*h+(v&xff);}returnhStringUTF类中的hashCode函数如下面所示：publicstaticinthashCode(bytevalue){inth=;intlength=value.length》》;for(inti=;i《length;i++){h=*h+getChar(value,i);}returnh一个好的哈希函数算法都希望尽可能地减少生成出来的哈希值会造成哈希碰撞的情况。Goodrich和Tamassia这两位计算机科学家曾经做过一个实验，他们对超过个英文单词进行了哈希值运算，并使用常数、、、和作为乘数因子，每个常数所算出的哈希值碰撞的次数都小于个。但是最终选择还是有着另外几个原因。从数学的角度来说，选择一个质数（PrimeNumber作为乘数因子可以让哈希碰撞减少。其次，我们可以看到在上面的两个hashCode源码中，都有着一条*h的语句，这条语句在JVM中其实都可以被自动优化成“(h《《)-h”这样一条位运算加上一个减法指令，而不必执行乘法指令了，这样可以大大提高运算哈希函数的效率。所以最终这个乘数因子就被一直保留下来了。区块链挖矿的本质通过上面的学习，相信你已经对哈希函数有了一个比较好的了解了。可能也发现了，哈希函数从输入到输出，我们可以按照函数的公式算法，很快地计算出哈希值。但是如果告诉你一个哈希值，即便给出了哈希函数的公式也很难算得出原来的输入到底是什么。例如，还是按照上面String类的hashCode函数的计算公式：?如果告诉了你哈希值是这个值，那输入的字符串是什么呢？我们想要知道答案的话，只能采用暴力破解法，也就是一个一个的字符串去尝试，直到尝试出这个哈希值为止。对于区块链挖矿来说，这个“矿”其实就是一个字符串。“矿工”，也就是进行运算的计算机，必须在规定的时间内找到一个字符串，使得在进行了哈希函数运算之后得到一个满足要求的值。我们以比特币为例，它采用了SHA的哈希函数来进行运算，无论输入的是什么，SHA哈希函数的哈希值永远都会是一个位的值。而比特币的奖励机制简单来说是通过每分钟放出一个哈希值，让“矿工们”利用SHA(SHA(x))这样两次的哈希运算，来找出满足一定规则的字符串出来。比方说，比特币会要求找出通过上面SHA(SHA(x))计算之后的哈希值，这个位的哈希值中的前位都必须为，谁先找到满足这个要求的输入值x，就等于“挖矿”成功，给予奖励一个比特币。我们知道，即便知道了哈希值，也很难算出这个x是什么，所以只能一个一个地去尝试。而市面上所说的挖矿机，其原理是希望能提高运算的速度，让“矿工”尽快地找到这个x出来。

　　⑿哈希算法就是一种特殊的函数，不论输入多长的一串字符，只要通过这个函数都可以得到一个固定长度的输出值，这就好像身份证号码一样，永远都是十八位而且全国唯一。哈希算法的输出值就叫做哈希值。

　　⒀哈希算法有三个特点，它们赋予了区块链不可篡改、匿名等特性，并保证了整个区块链体系的完整。

　　⒁第一个特点是具有单向性。比如输入一串数据，通过哈希算法可以获得一个哈希值，但是通过这个哈希值是没有办法反推回来得到输入的那串数据的。这就是单向性，也正是基于这一点，区块链才有效保护了我们信息的安全性。

　　⒂哈希算法的第二个特点是抗篡改能力，对于任意一个输入，哪怕是很小的改动，其哈希值的变化也会非常大。

　　⒃它的这个特性，在区块与区块的连接中就起到了关键性的作用。区块链的每个区块都会以上一个区块的哈希值作为标示，除非有人能够破解整条链上的所有哈希值，否则数据一旦记录在链上，就不可能进行篡改。

　　⒄哈希算法的第三个特点就是抗碰撞能力。所谓碰撞，就是输入两个不同的数据，最后得到了一个相同的输入。

　　⒅就跟我们逛街时撞衫一样，而坑碰撞就是大部分的输入都能得到一个独一无二的输出。在区块链的世界中，任何一笔交易或者账户的地址都是完全依托于哈希算法生产的。这也就保证了交易或者账户地址在区块链网络中的唯一性。

　　⒆无论这笔转账转了多少钱，转给了多少个人，在区块链这个大账本中都是唯一的存在。它就像人体体内的白细胞，不仅区块链的每个部分都离不开它，而且它还赋予了区块链种种特点，保护着整个区块链体系的安全。

　　⒇哈希函数（Hash自身具有三个特性：①可输入的字符串为任意大小；②产生固定大小（即存储规模的输出，且这个大小可设定（随机数；③能进行有效计算。在比特币挖矿原理中，随机数是一个指定的解，基于某种率先加密的哈希函数具有单向性和隐秘性，既不能反向解出输入值也无法仅凭尝试找到输入值。此外，不同的输入产生不同的哈希函数，每次返回设定大小的位数形成信息摘要，极大地节省了网络存储规模。Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射，pre-image，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数

　　⒈hash算法的数学原理是什么，如何保证尽可能少的碰撞

　　⒉基于概率分析在使用哈希函数时选择“正确”的哈希函数可以很大程度减少碰撞比如字符串哈希可以用BKDRHash当然也可以针对输入数据特点设计哈希算法这个就要分情况了

　　⒊HashMap实现原理

　　⒋HashMap在实际开发中用到的频率非常高，面试中也是热点。所以决定写一篇文章进行分析，希望对想看源码的人起到一些帮助，看之前需要对链表比较熟悉。以下都是我自己的理解，欢迎讨论，写的不好轻喷。

　　⒌HashMap中的数据结构为散列表，又名哈希表。在这里我会对散列表进行一个简单的介绍，在此之前我们需要先回顾一下数组、链表的优缺点。

　　⒍数组和链表的优缺点取决于他们各自在内存中存储的模式，也就是直接使用顺序存储或链式存储导致的。无论是数组还是链表，都有明显的缺点。而在实际业务中，我们想要的往往是寻址、删除、插入性能都很好的数据结构，散列表就是这样一种结构，它巧妙的结合了数组与链表的优点，并将其缺点弱化（并不是完全消除

　　⒎散列表的做法是将key映射到数组的某个下标，存取的时候通过key获取到下标（index然后通过下标直接存取。速度极快，而将key映射到下标需要使用散列函数，又名哈希函数。说到哈希函数可能有人已经想到了，如何将key映射到数组的下标。

　　⒏图中计算下标使用到了以下两个函数：

　　⒐值得注意的是，下标并不是通过hash函数直接得到的，计算下标还要对hash值做index()处理。Ps：在散列表中，数组的格子叫做桶，下标叫做桶号，桶可以包含一个key-value对，为了方便理解，后文不会使用这两个名词。

　　⒑以下是哈希碰撞相关的说明：

　　⒒以下是下标冲突相关的说明：

　　⒓很多人认为哈希值的碰撞和下标冲突是同一个东西，其实不是的，它们的正确关系是这样的，hashCode发生碰撞，则下标一定冲突；而下标冲突，hashCode并不一定碰撞

　　⒔上文提到，在jdk.以前HashMap的实现是散列表=数组+链表，但是到目前为止我们还没有看到链表起到的作用。事实上，HashMap引入链表的用意就是解决下标冲突。

　　⒕下图是引入链表后的散列表：

　　⒖如上图所示，左边的竖条，是一个大小为的数组，其中存储的是链表的头结点，我们知道，拥有链表的头结点即可访问整个链表，所以认为这个数组中的每个下标都存储着一个链表。其具体做法是，如果发现下标冲突，则后插入的节点以链表的形式追加到前一个节点的后面。

　　⒗这种使用链表解决冲突的方法叫做：拉链法（又叫链地址法。HashMap使用的就是拉链法，拉链法是冲突发生以后的解决方案。

　　⒘Q：有了拉链法，就不用担心发生冲突吗？A：并不是！由于冲突的节点会不停的在链表上追加，大量的冲突会导致单个链表过长，使查询性能降低。所以一个好的散列表的实现应该从源头上减少冲突发生的可能性，冲突发生的概率和哈希函数返回值的均匀程度有直接关系，得到的哈希值越均匀，冲突发生的可能性越小。为了使哈希值更均匀，HashMap内部单独实现了hash()方法。

　　⒙以上是散列表的存储结构，但是在被运用到HashMap中时还有其他需要注意的地方，这里会详细说明。

　　⒚现在我们清楚了散列表的存储结构，细心的人应该已经发现了一个问题：Java中数组的长度是固定的，无论哈希函数是否均匀，随着插入到散列表中数据的增多，在数组长度不变的情况下，链表的长度会不断增加。这会导致链表查询性能不佳的缺点出现在散列表上，从而使散列表失去原本的意义。为了解决这个问题，HashMap引入了扩容与负载因子。

　　⒛以下是和扩容相关的一些概念和解释：

　　Ps：扩容要重新计算下标，扩容要重新计算下标，扩容要重新计算下标，因为下标的计算和数组长度有关，长度改变，下标也应当重新计算。

　　在.及其以上的jdk版本中，HashMap又引入了红黑树。

　　红黑树的引入被用于替换链表，上文说到，如果冲突过多，会导致链表过长，降低查询性能，均匀的hash函数能有效的缓解冲突过多，但是并不能完全避免。所以HashMap加入了另一种解决方案，在往链表后追加节点时，如果发现链表长度达到，就会将链表转为红黑树，以此提升查询的性能。

您可能感兴趣的文章:

2024年10月哪个哈希函数还不能进行碰撞？hash函数强抗碰撞性和弱碰撞性的区别

相关文章

大家感兴趣的内容

最近更新的内容