施磊磊的雙周匯報書面版

2021-09-04 23:06:17 字數 982 閱讀 1351

雙周匯報

最近看了關於重複文件檢測的演算法,對此演算法有點興趣,就上網搜了很多相關的資料,看了一些人寫的部落格,看有的寫的還不錯就摘抄下來以備後面寫**的不時之需。這幾天白天在和學院的大二大三的搞社會實踐,沒辦法,菁英學校那邊需要三個社會實踐,只是需要蓋個章就行,所以花了進乙個禮拜的時間,上午8點出發,下午5點回校,休息一會兒就開始看書。那本就問劉鵬拿來的hadoop實戰的書已經看過一次,這次又認真地看了一下,感覺很舒服,很多基礎的內容,不僅僅是簡單的介紹一下基本的原理,更多的是理解與掌握其中的方法。

自己還買了是那本這方面的書籍,有點深度,同時也是初學者很好的入門教材。我會認認真真的看下去,然後做做實驗,爭取發表一篇高質量的**。和您學到很多的東西,記筆記就是乙個很好的方法,有句話說的好,好記性不如爛筆頭。

很多的理解與感悟都是當時一瞬間的體會。過去的就是過去了,很多的好的想法就應該及時的記下來。這樣的話以後看起來就回想起來當時的一些事情。

下面就簡單的講一下該演算法的一些理論知識,bloom filter 是由 howard bloom 在 1970 年提出的二進位制向量資料結構,它具有很好的空間和時間效率,被用來檢測乙個元素是不是集合中的乙個成員,這種檢測只會對在集合內的資料錯判,而不會對不是集合內的資料進行錯判,這樣每個檢測請求返回有「在集合內(可能錯誤)」和「不在集合內(絕對不在集合內)」兩種情況,可見 bloom filter 是犧牲了正確率換取時間和空間。

bloom filter 計算方法

如需要判斷乙個元素是不是在乙個集合中,我們通常做法是把所有元素儲存下來,然後通過比較知道它是不是在集合內,鍊錶、樹都是基於這種思路,當集合內元素個數的變大,我們需要的空間和時間都線性變大,檢索速度也越來越慢。 bloom filter 採用的是雜湊函式的方法,將乙個元素對映到乙個 m 長度的陣列上的乙個點,當這個點是 1 時,那麼這個元素在集合內,反之則不在集合內。這個方法的缺點就是當檢測的元素很多的時候可能有衝突,解決方法就是使用 k 個雜湊函式對應 k 個點,如果所有點都是 1 的話,那麼元素在集合內,如果有 0 的話,元素則不在集合內。

施磊磊研究匯報

通過分析文字背景 使用者行為和時間,然後基於四個鮮明的特點進行 領導者的排序,這四個特點是專業知識,新穎性,影響力和活動,此外,從長期供職和中心地位方面對 領導者的效能也進行了進一步調查研究。主要方法 創新點 介紹 圖一 領導者的enia框架 如上圖一所示,就是 學習社群彙總的用於 領導者的識別框架...

施磊磊研究匯報

上面就提出了研究的重要性,社會 社會網路對我們現在社會的影響。接著就分析一些重要的文獻,分析每個文獻是採用什麼方法對社會網路進行分析的。最後才提出本文是用什麼方法或是模型進行研究的,每個人的研究都有各自研究的領域,同樣的方法用在不同的領域會有不一樣的效果。本文首先研究了乙個pagerank 形成模型...

施磊磊研究匯報

研究匯報 閱讀文獻 erjia yan ying ding 2011 discovering author impact a pagerank perspective information processing and management,47 125 134.主要內容與創新點 本文通過應用pa...