施磊磊的雙周匯報書面版

雙周匯報

最近看了關於重複文件檢測的演算法，對此演算法有點興趣，就上網搜了很多相關的資料，看了一些人寫的部落格，看有的寫的還不錯就摘抄下來以備後面寫**的不時之需。這幾天白天在和學院的大二大三的搞社會實踐，沒辦法，菁英學校那邊需要三個社會實踐，只是需要蓋個章就行，所以花了進乙個禮拜的時間，上午8點出發，下午5點回校，休息一會兒就開始看書。那本就問劉鵬拿來的hadoop實戰的書已經看過一次，這次又認真地看了一下，感覺很舒服，很多基礎的內容，不僅僅是簡單的介紹一下基本的原理，更多的是理解與掌握其中的方法。

自己還買了是那本這方面的書籍，有點深度，同時也是初學者很好的入門教材。我會認認真真的看下去，然後做做實驗，爭取發表一篇高質量的**。和您學到很多的東西，記筆記就是乙個很好的方法，有句話說的好，好記性不如爛筆頭。

很多的理解與感悟都是當時一瞬間的體會。過去的就是過去了，很多的好的想法就應該及時的記下來。這樣的話以後看起來就回想起來當時的一些事情。

下面就簡單的講一下該演算法的一些理論知識，bloom filter 是由 howard bloom 在 1970 年提出的二進位制向量資料結構，它具有很好的空間和時間效率，被用來檢測乙個元素是不是集合中的乙個成員，這種檢測只會對在集合內的資料錯判，而不會對不是集合內的資料進行錯判，這樣每個檢測請求返回有「在集合內（可能錯誤）」和「不在集合內（絕對不在集合內）」兩種情況，可見 bloom filter 是犧牲了正確率換取時間和空間。

bloom filter 計算方法

如需要判斷乙個元素是不是在乙個集合中，我們通常做法是把所有元素儲存下來，然後通過比較知道它是不是在集合內，鍊錶、樹都是基於這種思路，當集合內元素個數的變大，我們需要的空間和時間都線性變大，檢索速度也越來越慢。 bloom filter 採用的是雜湊函式的方法，將乙個元素對映到乙個 m 長度的陣列上的乙個點，當這個點是 1 時，那麼這個元素在集合內，反之則不在集合內。這個方法的缺點就是當檢測的元素很多的時候可能有衝突，解決方法就是使用 k 個雜湊函式對應 k 個點，如果所有點都是 1 的話，那麼元素在集合內，如果有 0 的話，元素則不在集合內。

施磊磊的雙周匯報書面版

施磊磊研究匯報

施磊磊研究匯報

施磊磊研究匯報

施磊磊的雙周匯報書面版

施磊磊研究匯報

施磊磊研究匯報

施磊磊研究匯報

相關推薦