文章重復性的感受 |
發布時間: 2012/9/3 11:14:03 |
se可以說一個是由全球頂尖的it工程師們開發出的超大型算法程序,遠沒有想象的那么簡單。 判斷文章相似度并不是簡單的看一個頁面 se判斷相似度是一個綜合指標,并不是簡單的看你某頁面是否與數據庫里的某個頁面相似,而是基于整站構架的考慮,如果你全是采集,目錄構架和采集站一樣的話,仍然能識別出你是重復內容,所以即使你每個頁面都加一些例如轉載信息類的文字來試圖和原頁面不同,如果正文還是采集回來的話,se仍然能識別出你是重復內容。 并不是說換了套不一樣的模板就顯得不相似了 se處理頁面文字是將所有的html代碼去掉看的,所以并不是說換個模板它就認為你和原頁面不形似。 另外如果是已經做了一段時間的站建議不要換模板,因為換模板可能會把每個頁面的內部鏈接變掉,有可能會影響搜索引擎收錄,如果實在要換,建議保持原有頁面的內部鏈接規則。 se會把每個元素分解開來處理 se判別相似度的因素很多,他會把頁面的所有因素都劈開,如頁面title,整體布局,文字信息,內部鏈接架構,url規律,再綜合評判你是否相似。 所以除非你能把采集回來的東西把這些因素都和原站幾乎所有的因素都不形似,但是如果你真能做到的話,那也就不叫采集了。 本文出自:億恩科技【www.vbseamall.com】 |