新手做網(wǎng)站優(yōu)化應(yīng)該從什么地方開始

愛分享

2年前更新

05409618

作為新手，應(yīng)該從什么地方著手SEO工作呢

一、爬行和抓取階段

通過蜘蛛程序，各搜索引擎在訪問網(wǎng)站時都會先去查看網(wǎng)站根目錄下的robots.txt文件，從而獲取網(wǎng)站中被禁止爬取網(wǎng)址的信息。對于被禁止抓取部分的網(wǎng)址，不會被搜索引擎收錄，但是需要注意的一個現(xiàn)象是，百度目前會對部分將百度蜘蛛屏幕的網(wǎng)站以下列類似淘寶網(wǎng)的形式顯示，據(jù)個人不完全觀察發(fā)現(xiàn)，這種現(xiàn)象正逐漸變的普遍起來。

為了獲取更多的信息，蜘蛛會通過跟蹤頁面上的鏈接來抓取頁面。從理論上來說，蜘蛛可以通過鏈接抓取整個互聯(lián)網(wǎng)上的信息，但是在實際操作中，考慮到頁面的復(fù)雜程度，蜘蛛會采取深度抓取和廣度抓取兩種方式來進(jìn)行頁面抓取的工作。為了避免重復(fù)爬行和抓取，搜索引擎會建立包括已發(fā)現(xiàn)但未被抓取以及已被抓取的兩個網(wǎng)頁地址庫進(jìn)行參考對比，而被抓取的頁面會進(jìn)入原始的頁面數(shù)據(jù)庫。到此為止，原始數(shù)據(jù)庫的建立就告一段落了。

二、索引階段

原始數(shù)據(jù)庫建立完畢，搜索引擎會對網(wǎng)頁進(jìn)行文字提取的處理，當(dāng)然，除了頁面上顯示的文字外，搜索引擎還會對諸如meta標(biāo)簽、flash替代文件，錨文本、alt標(biāo)簽等部分的文字進(jìn)行提取。

百度的中文分詞技術(shù)在搜索引擎中的霸主地位無人可以撼動。對于頁面上抓取到的文字，搜素引擎會進(jìn)行分詞處理，比如將“瘦小腿方法”分為“瘦小腿”、“方法”兩個部分。而分詞的方法，一般會有詞典與統(tǒng)計兩種手段。詞典嘛，不需要太多解釋；至于統(tǒng)計，是指通過分析大量文本從而計算字與字之間相鄰出現(xiàn)的概率，概率越大，越容易形成一個詞。百度目前是將兩種方法結(jié)合使用，來達(dá)到最佳的效果。

或許說到這里，大家會問，針對一些中文中常出現(xiàn)的詞，比如“的”、“了”、“呀”之類沒有實際意義但是使用頻率又很高的詞，會怎么樣處理呢？答案是剔除，從而提高搜索引擎的計算效率。

在瀏覽網(wǎng)頁的信息時，我們會發(fā)現(xiàn)，有一些板塊，在網(wǎng)站是重復(fù)出現(xiàn)的，比如“導(dǎo)航”、“廣告”等，這部分東西，對于所屬頁面的顯示內(nèi)容來說，并沒有實際的意義。自然的，搜索引擎也會將此部分內(nèi)容進(jìn)行處理，從而篩選出所收錄頁面闡述表達(dá)內(nèi)容的最終文字部分。當(dāng)然，文字部分篩選出來之后，搜索引擎還會對各個網(wǎng)頁上所顯示的最終文字內(nèi)容進(jìn)行對比，從而刪除掉重復(fù)的內(nèi)容進(jìn)行顯示。

深入了解了搜索引擎原理，對于日常的SEO工作理解以及啟發(fā)作用還是十分明顯的。比如，你在偽原創(chuàng)的過程中，只是草草的給一些文章加一些簡單的助詞或者對小部分的文字內(nèi)容進(jìn)行簡單的修改，不好意思，你的文章在預(yù)處理甚至是爬行和抓取階段就被pass了。

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。本站所有資源均為作者提供和網(wǎng)友推薦收集整理而來，僅供學(xué)習(xí)和研究使用，請在下載后24小時內(nèi)刪除。如果有侵權(quán)之處請第一時間聯(lián)系我們E-mail：630092965@qq.com刪除。敬請諒解!

THE END