在分詞選取中要遵守兩種匹配原則:
第二個(gè)是:精準(zhǔn)匹配
那么在分詞中,題主的“搜索引擎優(yōu)化”是不是一定要把“搜索引擎優(yōu)化”和“搜索”分別做成精準(zhǔn)匹配呢?
在百度分詞中有一個(gè)原則:可以把百度數(shù)據(jù)庫可以想象成一個(gè)成語詞典,那么在百度日益發(fā)展成語義搜索的今天,更加會(huì)對(duì)一些現(xiàn)有的詞語進(jìn)行精準(zhǔn)的匹配。
這個(gè)問題的答案呢,我們覺得也不能一概而論,但大多數(shù)時(shí)候一個(gè)專業(yè)名詞更加會(huì)被百度精準(zhǔn)匹配,而產(chǎn)生不了分詞匹配更好的效果。比如:“節(jié)假日”這個(gè)詞語,就不可能匹配成“節(jié)假”和“日”同時(shí)有排名;"麻辣燙"就不可能匹配成“麻辣”和“燙”同時(shí)也有排名;
但至于“網(wǎng)絡(luò)營銷”會(huì)不會(huì)同時(shí)匹配“網(wǎng)絡(luò)營銷”和“營銷”同時(shí)有排名,就要看百度是否把“網(wǎng)絡(luò)營銷”當(dāng)成一個(gè)專業(yè)詞,怎么看?我們就要在以后的SEO學(xué)習(xí)中更加的探索,不過應(yīng)該可以從百度搜索結(jié)果中看到一些端倪的。
SEO(Search Engine Optimization)搜索引擎優(yōu)化,是一種利用搜索引擎規(guī)則進(jìn)行網(wǎng)絡(luò)營銷方式的一種,通過SEO優(yōu)化提升網(wǎng)站頁面展現(xiàn)量和點(diǎn)擊量,獲得更多網(wǎng)絡(luò)流量并獲得最終的轉(zhuǎn)化。首先先和大家介紹一下搜索引擎的工作原理,主要是分為三個(gè)步驟,分別為搜索引擎蜘蛛的爬行抓取、預(yù)處理和最終的排名展現(xiàn),爬行抓取是搜索引擎蜘蛛發(fā)現(xiàn)一些新的頁面之后,會(huì)將網(wǎng)頁的html代碼存到數(shù)據(jù)庫中,預(yù)處理也就是接下來的步驟,通過提取文字、去停止詞、去噪音板塊、中文分詞、去重(去掉互聯(lián)網(wǎng)上已有的內(nèi)容,根據(jù)關(guān)鍵詞頻率等來確定),倒敘索引等有一個(gè)大致的排名,并將符合要求的頁面存儲(chǔ)到索引庫里。最后一步就是排名展現(xiàn),根據(jù)用戶使用的關(guān)鍵詞進(jìn)行分詞,進(jìn)行文章匹配,根據(jù)相關(guān)性計(jì)算來給出我們搜索的網(wǎng)頁排名,以上三個(gè)步驟就是搜索引擎的原理,大家在遇到問題的情況下,可以看看是哪個(gè)環(huán)節(jié)出現(xiàn)問題,具體去尋找一下問題出現(xiàn)在哪里。
SEO優(yōu)化的方面主要分為站內(nèi)優(yōu)化和站外優(yōu)化兩個(gè)方面,站內(nèi)優(yōu)化指的就是網(wǎng)站本身內(nèi)部?jī)?yōu)化,主要是包括代碼優(yōu)化、內(nèi)容優(yōu)化、標(biāo)簽優(yōu)化、結(jié)構(gòu)優(yōu)化等,大家在平常主要需要關(guān)注的幾點(diǎn)比如關(guān)鍵詞密度,一般都在2%-8%,如果不布置關(guān)鍵詞的話,可能頁面就沒有相應(yīng)關(guān)鍵詞的排名,但是如果布置過度的話,可能會(huì)被認(rèn)為是優(yōu)化過度,結(jié)果可能是適得其反。用戶體驗(yàn)的優(yōu)化和高質(zhì)量的內(nèi)容也是需要大家需要關(guān)注的,其它方面例如圖片優(yōu)化、url優(yōu)化、代碼優(yōu)化、網(wǎng)站打開速度等都會(huì)影響搜索引擎對(duì)我們網(wǎng)站的評(píng)價(jià)。
1、提取文字現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ),蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字處,還包含了大量的HTML格式標(biāo)簽,JavaScript程序等無法用于排名的內(nèi)容,搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容
搜索引擎存儲(chǔ)和處理頁面及用戶搜索都是以詞為基礎(chǔ)的
英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合
而中文詞與詞之間沒有任何分隔符,一個(gè)句子中所有字和詞都是連在一起的
搜索引擎必須首先分辨哪幾個(gè)詞組成一個(gè)詞,哪些字本身就是一個(gè)詞
比如“公務(wù)員考試”將被分詞為“公務(wù)員”和“考試”兩個(gè)詞
3、去停止詞無論是英文還是中文,頁面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高,卻對(duì)內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“阿”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞
英文中的常見停止詞有the,a,an,to,of等
4、去除噪音絕大部分頁面上還有一部分內(nèi)容對(duì)頁面主題也沒有什么貢獻(xiàn),比如版權(quán)聲明文字,導(dǎo)航條、廣告等
以常見的博客導(dǎo)航為例,幾乎每個(gè)博客頁面上都會(huì)出現(xiàn)文章分類、歷史存檔等導(dǎo)航內(nèi)容,這些頁面本身與“分類”、“歷史”這些詞都沒有任何關(guān)系
所以這些區(qū)城都司于噪聲,對(duì)頁面主題只能起到分散作用
5、去重去重的基本方法是對(duì)頁面特征關(guān)系詞計(jì)算指指紋,也就是說從頁面主體內(nèi)容中選取最有的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)系詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋
6、正向索引7、倒序索引8、鏈接關(guān)系計(jì)算頁面上有哪些鏈接指向哪些其他頁面,每個(gè)頁面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重9、特殊文件處理除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等
但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序
官方微信
TOP