文章重復(fù)性的感受 |
發(fā)布時間: 2012/9/3 11:14:03 |
se可以說一個是由全球頂尖的it工程師們開發(fā)出的超大型算法程序,遠(yuǎn)沒有想象的那么簡單。 判斷文章相似度并不是簡單的看一個頁面 se判斷相似度是一個綜合指標(biāo),并不是簡單的看你某頁面是否與數(shù)據(jù)庫里的某個頁面相似,而是基于整站構(gòu)架的考慮,如果你全是采集,目錄構(gòu)架和采集站一樣的話,仍然能識別出你是重復(fù)內(nèi)容,所以即使你每個頁面都加一些例如轉(zhuǎn)載信息類的文字來試圖和原頁面不同,如果正文還是采集回來的話,se仍然能識別出你是重復(fù)內(nèi)容。 并不是說換了套不一樣的模板就顯得不相似了 se處理頁面文字是將所有的html代碼去掉看的,所以并不是說換個模板它就認(rèn)為你和原頁面不形似。 另外如果是已經(jīng)做了一段時間的站建議不要換模板,因為換模板可能會把每個頁面的內(nèi)部鏈接變掉,有可能會影響搜索引擎收錄,如果實在要換,建議保持原有頁面的內(nèi)部鏈接規(guī)則。 se會把每個元素分解開來處理 se判別相似度的因素很多,他會把頁面的所有因素都劈開,如頁面title,整體布局,文字信息,內(nèi)部鏈接架構(gòu),url規(guī)律,再綜合評判你是否相似。 所以除非你能把采集回來的東西把這些因素都和原站幾乎所有的因素都不形似,但是如果你真能做到的話,那也就不叫采集了。 本文出自:億恩科技【www.vbseamall.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |