軍哥SEO學堂,即將開課啦      · 火熱·招生進行中  趕緊掃碼報名學習SEO !!!
當前位置: SEO教程 > SEO培訓 >

頁面相似度查詢工具的工作原理

時間:2015-07-08 11:40來源:實踐整理 作者:軍哥SEO學堂 點擊:
在我的SEO不常見的幾個工具分享這篇文章中,介紹了一個頁面相似度查詢的工具頁面,即Similar Page Checker,這個工具很好用,輸入兩個你要比較的頁面,即可以查看出兩個頁面的相似程度,這個工具可以讓你盡量降低頁面的相似度,以免被搜索引擎懲罰。本月中,

在我的SEO不常見的幾個工具分享這篇文章中,介紹了一個頁面相似度查詢的工具頁面,即Similar Page Checker,這個工具很好用,輸入兩個你要比較的頁面,即可以查看出兩個頁面的相似程度,這個工具可以讓你盡量降低頁面的相似度,以免被搜索引擎懲罰。本月中,我們自己也需要實現這個功能,做一個這樣的SEO工具,其實,這個功能看似簡單,但卻包含了不少核心算法的東西在里面,本篇就這個相似度的問題,引申出一些相似度查詢的算法來。


相似度查詢的一些算法,列表如下:


1,cosine similarity。它是評測兩個向量的相似度,通過兩個夾角的cos值來實現。給定向量A和B,cosine相似度θ就可以通過以下公司計算:


cosine相似度


 


2,Jaccard similarity。即Jaccard Index,是用來統計樣本集合的相似度的,它采用兩個集合的交集除以兩個集合的并集來實現:


Jaccard index


3,Dice’s coefficient。


4,Overlap coefficient。類似Jaccard index。


5,Edit distance。即Levenshtein distance,在信息理論或者計算機科學中,是用來在文本陣列中測量兩段文字的不同量。


6,Plagiarism detection。即剽竊檢測。隨著互聯網的高速發展,人們對于信息和文章的來源獲取變得異常方便,而抄襲就變得一下子那么容易,剽竊檢測就變得尤為重要起來,剽竊檢測一般用于科學論文的鑒定、藝術設計的評測,以及源代碼的比較等方面。


該算法的應用場景及引申:


1,代碼比較。做過開發的人肯定知道一些代碼比對工具,這個在版本管理工具中很重要,比如svn中check下來的代碼,經過修改后,你想提交到服務器,在提交之前,你需要跟現有版本做一下比對,確認一下修改的具體代碼片段,以此來作個驗證,是個很好的習慣。當然,在linux中,也有這樣一個工具,叫diff,它可以讓你通過命令方式來比較兩個文件的不同之處。


2,作業檢查。老師布置給學生作業,如何檢查學生的抄襲現象?通過計算機的使用,使用文本相似度比較,就可以很容易得出答案。


3,版權保護。如何拒絕剽竊和抄襲現象,更好的保護知識產權,通過文本相似度的比對,也可以很輕易的做到。


4,指紋匹配,人臉識別。對于指紋以及人臉識別,其實就涉及到了圖形圖像的相似度比對中來了,這里可能引申的有點大,但是筆者認為算法還是有其相同之處吧。


5,文本數據挖掘。即text mining,也可以說text analytics,它是一個從文本海量數據中挖掘出高質量的信息的一個過程。


這次就算泛泛而談吧,希望我們自己能夠加快研究步伐,將這個頁面相似度工具盡快研發出來。

(本文"頁面相似度查詢工具的工作原理"的責任編輯:SEO學堂)
軍哥SEO學堂

軍哥SEO學堂

   火熱招生中

       實力培訓,趕緊左側掃碼報名

  掃一掃右側的順時網絡公眾號


  關注順時網絡公眾號

  時刻關注順時最新瞬間

  精彩等你關注掃左側碼呈現

順時科技公眾號
頂一下
(0)
0%
踩一下
(0)
0%
------分隔線----------------------------
相關推薦
熱線QQ客服
在線QQ咨詢
掃一掃

掃一掃
軍哥贈送神秘大禮

全國免費服務熱線
18025383583

掃一掃

掃一掃
軍哥贈送神秘大禮

全國免費服務熱線
13924653483

返回頂部
双色球复式12加5多少钱