文字的空間向量表示模型

2022-10-09 21:51:04 字數 1490 閱讀 3681

文字空間向量模型的主要思想是:將每乙個文字表示為向量空間的乙個向量,並以每乙個不同的特徵項(詞條)對應為向量空間中的乙個維度,而每乙個維的值就是對應的特徵項在文字中的權重。向量空間模型就是將文字表示成為乙個特徵向量:

其中為文件d中的特徵項為的權重,一般取為詞頻的函式。

一般選取詞作為文件向量的特徵項,最初的向量表示完全是0,1的形式,即如果文字**現了該詞,那麼文字向量的該維為1,否則為0。這種方法無法體現這個詞在文字中的作用程度,所以逐漸0、1被更精確的詞頻代替,詞頻分為絕對詞頻和相對詞頻,絕對詞頻,使用詞在文字**現的頻率表示文字,相對詞頻為歸一化的詞頻,其計算方法主要運用tf-idf公式,目前存在多種形式的tf-idf公式。

在向量空間模型中,兩個文字和之間的相關程度可以用它們之間的相似度來度量。當文字被表示為向量空間模型中的向量時,我們可以借助於向量之間的某種距離來表示文字之間的相似度,通常用向量之間的內積或者用夾角余弦值來表示。

根據以上理論的指導,我做了如下實驗。選取詞作為文字向量的特徵項(預先把中文詞彙的停止詞去掉,比如標點符號,啊,阿,哎,哎呀等)。文字向量權重的選取為特徵詞在文字**現的次數。

兩個文字間的相似度用夾角的余弦值表示。比如連個文字=,文字=,文字=。現在計算和之間的相似度。

步驟一:得到兩個文字特徵項集合的並集

步驟二:的向量表示

步驟三:的向量表示

步驟四:根據向量余弦夾角公式計算兩個文字的相似度。

步驟五:儲存結果。

實驗結果,的相似度為0.8164965809277259,和的相似度為0.6666666666666667。

主程式流程圖:

這個程式還比較簡陋,裡面還存在一些問題,只是乙個入門程式,現在正在研究tf-idf公式。tf是詞頻,不同類別的文件,在特徵項的出現頻率上有很大差異,因此特徵項頻率資訊是文字分類的重要參考之一,一般tf較大的特徵項在該類文件中具有較高的權重,也就是說如果乙個詞有某類文件中經常出現,那麼說明這個詞對該類文件具有代表性,tf越大,表示這個詞對文件越重要。如「計算機」這個詞在計算機類的文件**現的頻率顯然要高於政治類的文件。

但是只是詞頻不足以表示乙個詞對文件的有用程度,為了消減幾乎存在於所有文件中的高頻詞彙的影響,比較合理的辦法是使用反比文件頻率。

df是文件頻率,就是文件集合**現某個特徵項的文件數目;idf是反比文件頻率,idf越大,此特徵項在文件中的分布越集中,說明他在區分該文件內容屬性方面的能力越強。反文件頻率是特徵項在文件集分布情況的量化。idf應用時經常採用對數形式。

idf演算法能夠弱化一些在大多數文件**現的高頻特徵項的重要度,同時增強一些在小部分文件**現的低頻特徵項的重要度。

特徵權重計算唯一的準則就是要最大限度的區分不同文件。因此特徵項頻率tf與反比文件頻率idf通常是聯合使用的,也就是tf-idf權重。

[1]蘇力華.基於向量空間模型的文字分類技術研究[d].西安電子科技大學,2006.

[2]鄔啟為.基於向量空間的文字聚類方法與實現[d].北京交通大學,2014.

[3]陳治綱.基於向量空間模型的文字分類系統研究與實現[d].天津大學,2005.

空間向量的標準正交分解與座標表示

在空間中不共面的三個向量 叫做這個空間的乙個特別的當向量 兩兩垂直並且為單位向量時,就是前面學習的練習 1 課本36頁練習 2 如圖在正方體中,是稜的中點,是對角線的中點,設,用 表示。3 在平行六面體中,是平行四邊形的對角線的交點,是稜的中點,如果,用 表示 乙個向量在另乙個向量上的投影 計算下面...

空間向量的標準正交分解與座標表示 教學設計

2012年11月28日 3.1 空間向量的標準正交分解與座標表示 教學設計 一 教學目標 1 知識與技能 掌握空間向量的標準正交分解及其座標表示,理解空間向量的投影的定義,會求 空間向量的投影。2 過程與方法 從向量的幾何表示到座標表示,體會向量的幾何和代數的雙重特點 通過向量的正交分解的相關運算提...

空間向量的應用

05級數學專公升本劉海鋒 053091049 指導老師 李文銘教授 摘要高中數學新教材中,空間向量的應用是教學的重點與難點,它既豐富多彩又靈活多樣。在應用過程中,要始終抓住向量的基本知識及如何恰到好處的建立直角座標系,使問題中的有關量符號化 向量化 然後運用向量的知識順利進行計算與推理,為解決立體幾...