九九热线视频精品99-动漫高h纯肉无码视频在线观看-午夜理论无码片在线观看免费-99精品国产在热久久无码-亚洲国产成人乱码

網站建設中對關鍵字的識別

2012/4/18 9:07:43   閱讀:2461    發布者:2461
   搜索引擎和搜索引擎優化(SEO)一直是一對矛盾,合理的優化有助于搜索引擎對網站內容的識別,有助于網站的推廣。然而有正面,就有反面,一些SEOers通過各種欺騙手段來欺騙搜蘇引擎,以期達到增加頁面收錄數和頁面排名的目的。

  早期的關鍵字堆砌SPAM作弊方式之一,是將中文詞庫中的單詞直接用軟件拼湊成文章,這樣的文章沒有實際的意義,只能給搜索引擎看。那么對于這樣的文章,搜索引擎是通過什么方式來識別的呢?

  我們知道,每個搜索引擎都有網頁質量監控部門,對于百度等摻雜人工處理的搜索引擎而言,用戶發現這樣的網站,投訴到百度,百度直接封了這個網站了事。但對于Google這樣的封站也是自動處理的搜索引擎而言,對關鍵字堆砌作弊的識別就顯得更為重要了。

  對于關鍵字堆砌作弊方式的識別,網站建設搜索引擎一般采用統計分析的方法進行。

  搜索引擎首先將網頁進行分詞,分詞完成后可以得到詞的數量N和文章長度L,從大量文章的統計中發現文章的長度L和詞的數量N兩個數字之間存在一定的分布關系,一般而言L/N界于4至8之間,均值大約在5-6之間。也就是說一篇長度為1000字節的文章中,應該有125-250個分詞,由于中文和英文的詞的組成不一致,因此在英文和中文中這個比值的范圍會有所不同。如果搜索引擎發現L/N特別大,那么這篇文章就存在就存在關鍵字堆砌現象了,如果L/N特別小,則可能是這篇文章是由一些詞所組成的沒有意義的文章。

  進一步,通過大量正常文章統計發現,文章中密度最高的幾個關鍵字出現的次數之和與N/L存在一定的分布關系,搜索引擎就可以通過網頁中的分布與統計結果的分布圖進行比較得出文章是否存在關鍵字堆砌的現象。

  此外,搜索引擎還將從停止字的比例來判定文章是否為自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或詞,如果文章中停止字的比例在正常的比例范圍之外,這個網頁應提交到網頁質量監控部門審核。

  當然,還有更多的算法可以對網頁與自然語言的文章進行比較分析,以判別文章是否為自然文章。

  所謂魔高一尺、道高一丈,有些作弊者已經放棄了單詞的組成文章的作弊方式,而改用句子組成文章的作弊方式,作弊者通過爬蟲或其它方式獲得網上文章的句子,并用軟件將數十篇文章的某幾句拼湊成一篇文章。這就需要搜索引擎做語義的分析來判斷是否作弊了,然而目前關于語義分析的研究還處于研究階段,這也是下一代智能搜索引擎的方向。

  然而我們仍然不能將自動文章生成一棍子打死,基于人工智能的文章生成仍然是人類研究自身語言以及自身智能的一個重要方向。作弊與反作弊,將能促使人類對人工智能的研究。

  如果到最后,軟件能生成人類能夠理解的文章,這是SPAM還是精華?你能肯定地說目前存在的智能化程度還不夠高的RSS聚合文章一定是SPAM嗎?然而,如果這樣的文章海量的出現,我們又該如何去面對這個現象?

主站蜘蛛池模板: 亚洲线精品一区二区三八戒 | 九九热线有精品视频| 精品国产国语对白久久免费| 欧美黑人又粗又硬xxxxx喷水| 国产国语亲子伦亲子| 亚洲一区二区三区四区| 日韩成人无码v清免费| 国产亚洲欧美日韩在线观看一区| 国产午夜成人精品视频app| 丰满少妇被粗大的猛烈进出视频 | 18禁高潮出水呻吟娇喘蜜芽| 国产人成高清在线视频99| 亚洲日韩国产av中文字幕| 色琪琪av中文字幕一区二区| 国产后入清纯学生妹| 西西人体午夜视频无码| 国产亚洲精品久久久久久国模美| 精品夜夜爽欧美毛片视频| 在线观看无码av网址| 最新精品国偷自产在线婷婷| 撕开奶罩揉吃奶高潮av在线观看| 国产果冻豆传媒麻婆| 正在播放老肥熟妇露脸| 久久人妻少妇嫩草av无码专区| 女女女女女裸体开bbb| 久青草无码视频在线播放| 欧美日韩精品| 国产成人一区二区三区免费| 人妻少妇中文字幕乱码| 色窝窝无码一区二区三区| 免费无码又爽又刺激聊天app | 国产在线无码不卡播放| 日韩精品亚洲一区在线综合| 无码专区视频精品老司机| 欧美黑人粗大猛烈18p| 国产无套水多在线观看| 热99re6久精品国产首页青柠 | 五月丁香综合缴情六月| 亚洲欧美中文高清在线专区| 国产精品久久久久久无毒不卡| 制服丝袜亚洲欧美中文字幕|