九九热线视频精品99-动漫高h纯肉无码视频在线观看-午夜理论无码片在线观看免费-99精品国产在热久久无码-亚洲国产成人乱码

搜索引擎分詞算法

2016/10/29 8:45:58   閱讀:1721    發(fā)布者:1721

  當(dāng)日益劇增的海量信息讓我們眼花繚亂時,搜索引擎的出現(xiàn)可以讓我們快速找到自己想要的答案。因此多了解搜索引擎的分詞算法,可以讓網(wǎng)站在搜索引擎上獲得更好的展現(xiàn)機(jī)會。網(wǎng)站建設(shè)小編在講解中文分詞技術(shù)之前,先來了解下全文檢索技術(shù)。

  全文檢索技術(shù)

  全文檢索是指索引程序掃描文章中的每個詞并建立對應(yīng)索引,記錄該詞出現(xiàn)的位置和次數(shù)。當(dāng)通過搜索引擎查詢時,檢索程序就在記錄的索引進(jìn)行查找并返回給用戶。全文檢索又分為基于字的全文索引和基于詞的全文索引。基于字的全文索引會對內(nèi)容中的每個字建立索引并記錄,此方法查全率高但查準(zhǔn)率低,特別是對于中文,有時搜索馬克,會列出馬克思的結(jié)果。基于詞的全文索引是把一個詞語作為一個單位進(jìn)行索引記錄并能處理同義詞。搜索引擎有自己的詞庫,當(dāng)用戶搜索時,搜索引擎會從詞庫中抽取關(guān)鍵詞作為索引項,這樣可以大大提高檢索的準(zhǔn)確率。

  中文分詞技術(shù)

  一直以來大家都比較熟悉百度,百度有自己的中文分詞技術(shù)。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統(tǒng)方法等。其中最大正向匹配是最常用的分詞解決方案,它采用機(jī)械式算法,通過建立詞典并進(jìn)行正向最大匹配對中文進(jìn)行分詞。舉個簡單的例子比如搜索“北京大學(xué)在哪里”則返回結(jié)果很多都是包含北京大學(xué),北大等詞語的網(wǎng)頁,搜索引擎就是采用正向最大匹配去判斷,把北京大學(xué)當(dāng)做一個詞語來索引記錄并返回。當(dāng)然,正向最大匹配也有不完整性,比如長度過長的詞語,搜索引擎有時無法準(zhǔn)確的分詞或者對前后都相互關(guān)聯(lián)的詞無法準(zhǔn)確分詞。例如“結(jié)合成分子時”會被返回結(jié)合、成分、子時而有時我們想要的關(guān)鍵詞是“分子”。

  很多時候百度都會根據(jù)自己詞庫中詞語的權(quán)重進(jìn)行拆分,權(quán)重的計算基于生活各個方面,比較復(fù)雜,搜索引擎要做的就是返回用戶最想要的結(jié)果,有時站長們做網(wǎng)站要站在用戶的角度去考慮問題,其實這也是站在搜索引擎的角度考慮問題,不論在確定目標(biāo)關(guān)鍵詞或者是長尾關(guān)鍵詞時,都可以根據(jù)中文分詞的原理來選擇,這樣可以最大化的減少無用功。

  分詞原理不斷在變化,不斷在更新,我們應(yīng)該繼續(xù)學(xué)習(xí),只有掌握了本質(zhì)才能抓住實質(zhì)。

    相關(guān)閱讀:《關(guān)于搜索引擎分詞的一些理解》

主站蜘蛛池模板: 成人午夜福利免费无码视频| 日韩成人无码v清免费| 欧美性受xxxx白人性爽| 无码成人片在线播放| 天堂www中文在线| 粗大的内捧猛烈进出在线视频| 亚洲欧美精品suv| 国产男生午夜福利免费网站| 狠狠色成人一区二区三区 | 麻豆蜜桃av蜜臀av色欲av| 国产成人无码a区在线观| 国产丰满老熟妇乱xxx1区 | 国产成人夜色高潮福利app| 久久久久久人妻精品一区二区三区| 无码国产精成人午夜视频不卡| 色婷婷六月亚洲婷婷丁香 | 蜜臀av无码人妻精品| 久久婷婷五月综合色中文字幕| 亚洲国产日韩视频观看| 18禁无遮拦无码国产在线播放| 欧美三级午夜理伦三级| 人妻少妇精品视频无码综合| 熟女少妇内射日韩亚洲| 国产成本人片无码免费| 少妇高潮毛片色欲ava片| 香蕉免费一区二区三区| 亚洲国产精品成人网址天堂| 狠狠噜天天噜日日噜av | 玩弄放荡人妻少妇系列| 精品国产自在在线午夜精品| 狠狠亚洲婷婷综合色香五月| 人妻天天爽夜夜爽精品视频 | 日韩国产图片区视频一区| 男女久久久国产一区二区三区| 永久免费看一区二区看片| 日本十八禁视频无遮挡| 特级做a爰片毛片免费69| 曰本无码超乳爆乳中文字幕| 日韩国产精品无码一区二区三区| 国产私拍大尺度在线视频| 日本污ww视频网站|