學術不端文獻檢測系統培訓手冊

學術不端文獻檢測系統（簡稱「amlc」）以《中國學術文獻網路出版總庫》為全文比對資料庫，實現了對抄襲與剽竊、偽造、篡改等學術不端行為的快速檢測，可供使用者檢測**，並支援使用者自建比對庫。其系統示意圖如圖1所示。

圖1 檢測系統示意圖

amlc採用cnki自主研發的自適應多階指紋（ａｍｌｆｐ）特徵檢測技術，具有檢測速度快，準確率，召回率較高，抗干擾性強等特徵。

支援篇章、段落、句子各層級檢測；

支援文獻改寫，多篇文獻組合等各種文獻變形檢測；

支援研究生**、圖書專著等超長文獻的學術不端檢測。

cnki自適應多階指紋技術原理如圖2所示：

圖2 cnki自適應多階指紋技術原理圖

對任意一篇需要檢測的文獻，系統首先對其進行分層處理，按照篇章、段落、句子等層級分別建立指紋，而比對資源庫中的比對文獻，也採取同樣技術建立指紋索引。這樣的分層多階指紋結構，不僅可以滿足我們對超長文獻的快速檢測，而且，因為我們的最小指紋粒度為句子，因此，也滿足了系統對檢準率和檢全率的高要求。原則上，只要檢測文獻與比對文獻存在乙個相同的句子，就能被檢測系統發現。

系統主要功能包括：已發表文獻檢測、**檢測、問題庫查詢、自建比對庫管理等。

◆已發表文獻檢測：指檢測系統能夠自動將屬於使用者的已正式發表的**檢索出來，並對每一篇已發表文獻進行實時檢測，快速給出檢測結果。

◆**檢測：主要實現**實時**檢測功能。

◆問題庫查詢：指使用者可以將檢測結果中確認有問題的文獻放入到問題庫，便於使用者集中管理。

◆自建比對庫：指管理人員可以選擇將檢測文獻放入個人比對庫或者批量上傳文獻作為個人比對庫，該個人比對庫即可作為以後學術不端文獻檢測的比對資料庫，該自建個人比對庫完全屬於使用者，其他使用者無權使用。

amlc的目的是提供辨別和處理學術不端文獻的能力，為審查**提供技術服務。檢測系統在對**進行檢測之後，生成檢測報告，為判斷**性質提供相關依據。

cnki擁有強大的技術研發隊伍，目前已經擁有了具有國際或國內領先水準的全面的數字出版的相關技術，包括資源採集技術，文字資料庫加工技術，文字資料庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。在海量的全文資料的基礎上實現快速準確的檢測，上述技術是基本的保證。

amlc需要乙個盡可能完備的全文資料比對資源庫，而cnki的《中國學術文獻網路出版總庫》則正好滿足這一要求。到目前為止，cnki擁有學術期刊7000餘種，期刊全文文獻2480萬篇，期刊期數和文獻收錄完整率都大於99.9%，文獻量居國際國內同類產品之首；出版503家碩士學位點的72萬篇優秀碩士**，368家博士學位點的9.

6萬篇博士**；1286家重要會議**106萬篇；515家重要報紙500多萬篇；1376種重要年鑑787萬篇；600多種工具書220多萬條；學術引文索引資料600多萬條；這些出版物做到平均日更新20000條記錄；國家標準、專利、springer資料庫也整合到cnki網路出版平台中；另外，出版平台還整合整合出版了各類第三方資料庫資源1020種。

在收錄資源種類上，cnki在國內具有明顯優勢，收錄了期刊、**、會議**、報紙、年鑑、工具書、專利、外文文獻、學術文獻引文等與科學研究、學習相關的主要資源。在資源收錄數量上，cnki明顯優於同類產品，各個資源庫收錄年限長，期刊等主要資源庫回溯到創刊。在資源更新速度上，cnki產品除了第三方合作的外文文獻以外，其他資源都做到了日更新，單日更新數量大，這是推行產業化、標準化運作的結果。

圖3 系統架構圖

檢測系統提供整套的文獻學術不端行為檢測，系統伺服器位於cnki中心**，使用者將待檢測的**通過網路**提交到中心**伺服器，伺服器在檢測完成後，自動將檢測結果返回給使用者。整套系統架構為b/s結構，客戶端不需要安裝任何軟體。其系統示意圖如圖4所示：

圖4 系統示意圖

圖5 系統核心流程圖

實現**的學術不端檢測，使用者需要提供的資源包括：

1．**全文內容

**全文內容是檢測**是否存在學術不端行為的基礎資料。本檢測系統是對提交的**全文內容進行分析，在內容分析的基礎上，生成各項檢測指標。因此，全文資料是系統所需要的必要資源。

2．元資料資訊

元資料指**相應的作者、作者單位、發表時間、支援**專案等資訊。元資料是檢測系統對學術不端型別進行判斷所需的基礎資料，為了更準確的便於系統做出預判，使用者可以在提交檢測文獻的同時，一併提交文獻的元資料資訊。

特別提到的是：在進行**檢測的時候，作者資訊是非常必要的。輸入作者資訊，在後續的檢測過程中，系統能夠自動根據作者資訊區分比對資源中的文獻是屬於該作者已發表的文獻，還是他人的文獻，為使用者快速甄別**是否存在學術不端行為提供更直觀的印象。

因為在**中，引用自己以前發表過的文獻是合理的。

注意：元資料不是系統必需的資料，使用者在使用檢測系統的時候，可以選擇不填寫元資料。但我們建議最好輸入作者資訊。

在對使用者提交的檢測文獻檢測之後，系統生成的檢測結果包括：

1．重合文字**文獻資訊。

系統詳細列出重合文字**文獻資訊，這些文獻都是真實存在，而且應是公開發表或得到發表確認的。

2．比對資訊。

檢測文獻和**文獻的詳細比對資訊，使用者可以快速選擇重合文字部分查閱。

3．總檢測指標。

該指標體系從多個角度對檢測文獻中的文字複製情況進行了概括性描述。

4．子檢測指標。

因為**一般較長，因此，系統一般按章檢索，並且每一章給出子檢測指標，該檢測指標從多個角度對該章內容的檢測情況進行了詳細描述。

5．診斷型別。

系統根據指標引數以及其他元資料相關資訊，自動給出乙個預判的診斷型別，供審查人員參考。

6．檢測報告。

檢測系統自動生成乙個檢測報告單，詳細列出檢測文獻的學術不端行為檢測情況，使用者可以對該報告單進行修改，生成終審報告。

注意：系統只對疑似存在學術不端行為的**生成檢測報告。

學術不端文獻檢測系統採用的指標體系分為兩個部分：

**一般文獻篇幅較大，字數多，碩士**一般為3~5萬字，博士**則多達十多萬字。因此，為了讓使用者對整個**有乙個快速的概況了解，特制定了以下指標體系：

● 總重合字數（cca）

● 總文字複製比（ttr）

● 總文字數（tca）

● 疑似章節數（qca）

● 總章節數（tca）

● 首部重合文字數（hcca）

● 尾部重合文字數（ecca）

上述指標從整體情況描述了**的檢測情況，便於使用者快速了解該**總的檢測概況。下面對上述指標分別進行說明。

**一般篇幅大，少則3~5萬字，多則十多萬字，若以文字複製比來衡量一篇**的文字重合情況，則不太合適。因為對於一篇十幾萬字的博士**來說，10%就已達到1萬字，文字複製情況已經非常嚴重。因此，對於博碩士**檢測，檢測系統使用絕對字數即總重合字數作為檢測結果的核心指標。

如圖6所示：

圖6 總重合字數示例

總文字複製比則是指**中總的重合字數在總的**字數中所佔的比例。通過該指標，我們可以直觀了解到重合字數在該檢測**中所佔的比例情況。

總文字數是指該檢測**所有包含的字數，文字複製比與總文字數的乘積即為重合字數。

疑似章節數是則檢測**疑似存在學術不端行為的章節的數量。總章節數則是指**總的章節數（對於不按章節顯示，而是按照固定長度切分的**，每一段落為一章節）。

首部重合文字數指**前1萬字中重合的文字數量。尾部重合文字數是指除去前1萬字，剩下的部分中重合的文字數量。對於**，一般開頭部分均是綜述性的報告介紹，其重要性遠低於**尾部。

對於**的每一章節，又制定了如下檢測指標來反映該章節的檢測情況，對於一篇**來說，每一章的內容各異，重點也不一樣，其核心工作內容一般主要存在某幾章中，子檢測指標可以讓使用者迅速了解每一章節的檢測情況。子檢測指標包括：

● 文字複製比（tr）

● 重合字數（cnw）

● 最大段長（lpl）

● 平均段長（apl）

● 段落數（pn）

● 段文字比（pr）

● 首部複製比（hr）

● 尾部複製比（er）

● 引用複製比（rr）*

上述指標從多個角度反映了檢測文獻的檢測情況，便於使用者進行針對性審核。下面對各項指標分別進行說明。

因為**一般文字量較多，為了便於使用者快速瀏覽檢測結果。系統會自動對**進行切分處理。有如下兩種處理方式：

1．若使用者提交的**是ms word格式，且按照ms word格式生成了文件目錄，檢測系統會自動識別**章節，按**實際章節資訊顯示**內容。

2．若**不存在明顯的章節資訊，或者不是ms word格式**，則系統會自動按照每段1萬餘字元切分**，按照切分後的結果顯示。

文字複製比即指**切分後每一章節段落的文字複製情況。文字複製比即指**的某一章節與比對文獻比較後，重合文字部分在該章節中所佔的比例。比例越高，反映該章節越多的文字來自於其他已發表文獻。

文字複製比反映了文章「抄襲」的文字數量比例，一般來說，文字複製比越高，存在學術不端行為的可能性越大。文字複製比情況如圖7所示。

圖7 文字複製比示例

重合字數指**該章節與比對文獻比較後，重合部分的字數。一般來說，不管文字複製比如何，重合字數越多，存在學術不端行為的可能性越大。如圖8所示，在圖中，雖然文字複製比只有16%，比例不高，但圖中左文標紅部分實際上是抄襲了右文的標紅部分。

圖8 重合字數示例

在**檢測中，當連續文字超過一定比例時，稱之為段。在本系統中，一般認為，連續200以上文字稱為段。

學術不端文獻檢測系統培訓手冊

學術不端文獻檢測系統培訓手冊

學術不端檢測說明

培訓管理系統產品手冊

學術不端文獻檢測系統培訓手冊

學術不端文獻檢測系統培訓手冊

學術不端檢測說明

培訓管理系統產品手冊

相關推薦