作為新手,應(yīng)該從什么地方著手SEO工作呢
![圖片[1]-新手做網(wǎng)站優(yōu)化應(yīng)該從什么地方開始](http://www.zzgyrme.cn/wp-content/uploads/2023/01/ef9dce51bf181528.jpg)
一、爬行和抓取階段
通過蜘蛛程序,各搜索引擎在訪問網(wǎng)站時(shí)都會(huì)先去查看網(wǎng)站根目錄下的robots.txt文件,從而獲取網(wǎng)站中被禁止爬取網(wǎng)址的信息。對(duì)于被禁止抓取部分的網(wǎng)址,不會(huì)被搜索引擎收錄,但是需要注意的一個(gè)現(xiàn)象是,百度目前會(huì)對(duì)部分將百度蜘蛛屏幕的網(wǎng)站以下列類似淘寶網(wǎng)的形式顯示,據(jù)個(gè)人不完全觀察發(fā)現(xiàn),這種現(xiàn)象正逐漸變的普遍起來(lái)。
為了獲取更多的信息,蜘蛛會(huì)通過跟蹤頁(yè)面上的鏈接來(lái)抓取頁(yè)面。從理論上來(lái)說(shuō),蜘蛛可以通過鏈接抓取整個(gè)互聯(lián)網(wǎng)上的信息,但是在實(shí)際操作中,考慮到頁(yè)面的復(fù)雜程度,蜘蛛會(huì)采取深度抓取和廣度抓取兩種方式來(lái)進(jìn)行頁(yè)面抓取的工作。為了避免重復(fù)爬行和抓取,搜索引擎會(huì)建立包括已發(fā)現(xiàn)但未被抓取以及已被抓取的兩個(gè)網(wǎng)頁(yè)地址庫(kù)進(jìn)行參考對(duì)比,而被抓取的頁(yè)面會(huì)進(jìn)入原始的頁(yè)面數(shù)據(jù)庫(kù)。到此為止,原始數(shù)據(jù)庫(kù)的建立就告一段落了。
二、索引階段
原始數(shù)據(jù)庫(kù)建立完畢,搜索引擎會(huì)對(duì)網(wǎng)頁(yè)進(jìn)行文字提取的處理,當(dāng)然,除了頁(yè)面上顯示的文字外,搜索引擎還會(huì)對(duì)諸如meta標(biāo)簽、flash替代文件,錨文本、alt標(biāo)簽等部分的文字進(jìn)行提取。
百度的中文分詞技術(shù)在搜索引擎中的霸主地位無(wú)人可以撼動(dòng)。對(duì)于頁(yè)面上抓取到的文字,搜素引擎會(huì)進(jìn)行分詞處理,比如將“瘦小腿方法”分為“瘦小腿”、“方法”兩個(gè)部分。而分詞的方法,一般會(huì)有詞典與統(tǒng)計(jì)兩種手段。詞典嘛,不需要太多解釋;至于統(tǒng)計(jì),是指通過分析大量文本從而計(jì)算字與字之間相鄰出現(xiàn)的概率,概率越大,越容易形成一個(gè)詞。百度目前是將兩種方法結(jié)合使用,來(lái)達(dá)到最佳的效果。
或許說(shuō)到這里,大家會(huì)問,針對(duì)一些中文中常出現(xiàn)的詞,比如“的”、“了”、“呀”之類沒有實(shí)際意義但是使用頻率又很高的詞,會(huì)怎么樣處理呢?答案是剔除,從而提高搜索引擎的計(jì)算效率。
在瀏覽網(wǎng)頁(yè)的信息時(shí),我們會(huì)發(fā)現(xiàn),有一些板塊,在網(wǎng)站是重復(fù)出現(xiàn)的,比如“導(dǎo)航”、“廣告”等,這部分東西,對(duì)于所屬頁(yè)面的顯示內(nèi)容來(lái)說(shuō),并沒有實(shí)際的意義。自然的,搜索引擎也會(huì)將此部分內(nèi)容進(jìn)行處理,從而篩選出所收錄頁(yè)面闡述表達(dá)內(nèi)容的最終文字部分。當(dāng)然,文字部分篩選出來(lái)之后,搜索引擎還會(huì)對(duì)各個(gè)網(wǎng)頁(yè)上所顯示的最終文字內(nèi)容進(jìn)行對(duì)比,從而刪除掉重復(fù)的內(nèi)容進(jìn)行顯示。
深入了解了搜索引擎原理,對(duì)于日常的SEO工作理解以及啟發(fā)作用還是十分明顯的。比如,你在偽原創(chuàng)的過程中,只是草草的給一些文章加一些簡(jiǎn)單的助詞或者對(duì)小部分的文字內(nèi)容進(jìn)行簡(jiǎn)單的修改,不好意思,你的文章在預(yù)處理甚至是爬行和抓取階段就被pass了。
暫無(wú)評(píng)論內(nèi)容