搜索引擎的工作原理,在我們的SEO工作中經常會被提及,簡單來說,主要是四個步驟,爬行和抓取,索引,排名。排名這一塊設計算法問題,暫且不去深究,這里主要說說爬行和抓取以及預處理兩個方面。
![圖片[1]-搜索引擎基本工作原理是什么](http://www.zzgyrme.cn/wp-content/uploads/2023/01/6879b3eccc204744.jpg)
一、爬行和抓取階段
通過蜘蛛程序,各搜索引擎在訪問網站時都會先去查看網站根目錄下的robots.txt文件,從而獲取網站中被禁止爬取網址的信息。對于被禁止抓取部分的網址,不會被搜索引擎收錄,但是需要注意的一個現象是,百度目前會對部分將百度蜘蛛屏幕的網站以下列類似淘寶網的形式顯示,據個人不完全觀察發現,這種現象正逐漸變的普遍起來。
為了獲取更多的信息,蜘蛛會通過跟蹤頁面上的鏈接來抓取頁面。從理論上來說,蜘蛛可以通過鏈接抓取整個互聯網上的信息,但是在實際操作中,考慮到頁面的復雜程度,蜘蛛會采取深度抓取和廣度抓取兩種方式來進行頁面抓取的工作。為了避免重復爬行和抓取,搜索引擎會建立包括已發現但未被抓取以及已被抓取的兩個網頁地址庫進行參考對比,而被抓取的頁面會進入原始的頁面數據庫。到此為止,原始數據庫的建立就告一段落了。
二、索引階段
原始數據庫建立完畢,搜索引擎會對網頁進行文字提取的處理,當然,除了頁面上顯示的文字外,搜索引擎還會對諸如meta標簽、flash替代文件,錨文本、alt標簽等部分的文字進行提取。
百度的中文分詞技術在搜索引擎中的霸主地位無人可以撼動。對于頁面上抓取到的文字,搜素引擎會進行分詞處理,比如將“瘦小腿方法”分為“瘦小腿”、“方法”兩個部分。而分詞的方法,一般會有詞典與統計兩種手段。詞典嘛,不需要太多解釋;至于統計,是指通過分析大量文本從而計算字與字之間相鄰出現的概率,概率越大,越容易形成一個詞。百度目前是將兩種方法結合使用,來達到最佳的效果。
或許說到這里,大家會問,針對一些中文中常出現的詞,比如“的”、“了”、“呀”之類沒有實際意義但是使用頻率又很高的詞,會怎么樣處理呢?答案是剔除,從而提高搜索引擎的計算效率。
在瀏覽網頁的信息時,我們會發現,有一些板塊,在網站是重復出現的,比如“導航”、“廣告”等,這部分東西,對于所屬頁面的顯示內容來說,并沒有實際的意義。自然的,搜索引擎也會將此部分內容進行處理,從而篩選出所收錄頁面闡述表達內容的最終文字部分。當然,文字部分篩選出來之后,搜索引擎還會對各個網頁上所顯示的最終文字內容進行對比,從而刪除掉重復的內容進行顯示。
深入了解了搜索引擎原理,對于日常的SEO工作理解以及啟發作用還是十分明顯的。比如,你在偽原創的過程中,只是草草的給一些文章加一些簡單的助詞或者對小部分的文字內容進行簡單的修改,不好意思,你的文章在預處理甚至是爬行和抓取階段就被pass了。
暫無評論內容