說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
搜索引擎系統概述
本次培訓內容主要包括搜索引擎系統概述、搜索引擎系統、搜索引擎分析系統、搜索引擎索引系統和搜索引擎查詢系統六大板塊。搜索引擎的服務方式可以分為三種:目錄式搜索引擎、全文搜索引擎和元搜索引擎。
搜索引擎系統
目前萬維網的結構是一個蝴蝶結結構,位于蝴蝶結兩端的分別是目錄型網頁和權威型網頁,目錄型網頁是蜘蛛爬取的入口,即種子站點,它擁有大量的導出鏈接,而導入鏈接卻比較少。我們網站中的一些內容頁便是權威型頁面,它們擁有很多的導入鏈接,卻鮮有導出鏈接。剩下的蝴蝶結的主體便是互聯網多數的頁面。
蜘蛛的爬行抓取策略分為廣度抓取和深度抓取,廣度抓取是先抓取層級比較低比較重要的目錄頁等,然后再去抓取下一層級的。而深度抓取便是沿著一個分類進行深層次的抓取,直到這個分類全部抓取結束,然后繼續抓取下一分類。
Robots協議是寫給蜘蛛看的標準,可以規定蜘蛛哪些頁面可以抓取哪些不可以抓取。
搜索引擎分析系統
互聯網上的頁面是由動態頁面和靜態頁面組成的,靜態頁面指的是html頁面,html預言是超文本標記語言,它是由形形的標簽組成的。
因為中文不像英文單詞一樣中間有空格,所以中文搜索引擎需要應用中文分詞技術P(S)=P(W1W2W3……Wn)=P(W1)*P(W2|W1)*P(Wt|W1W2……Wt-1),互聯網是喜歡原創的東西的,為了避免大量的抄襲文章的出現,搜索引擎會運用Shingle查重算法。鏈接是一個網站對另一個網站的信任投票,PR算法:PR(A) = (1-d)+ d(PR(t1)/C(t1)+ … + PR(tn)/C(tn))。
搜索引擎索引系統
索引分為正排索引和倒排索引,正排索引是把互聯網中的文章編號,然后運用分詞技術,統計出每篇文章中有哪些關鍵詞。倒排索引是在正排索引的基礎上,將關鍵詞編號,然后統計出這些關鍵詞對應了哪些文章。這樣當我們在搜索引擎上檢索關鍵詞的時候,搜索引擎便可以輕松的將包含這些關鍵詞的文章頁面返回給我們。
搜索引擎查詢系統
當我們在搜索引擎當中查詢一個詞的時候,搜索引擎會調用布爾模型算法返回包含我們查詢詞的頁面,這些頁面是經過權重計算(內容+鏈接+用戶點擊)排序過的,呈現出的結果包括url、標題、描述、快照日期和圖片。
中心思想
搜索的本質的將雜亂無章的信息通過合理的分類整合變得有序,并通過用戶的需求按照內容質量的程度呈現給用戶。搜索引擎會預先抓取互聯網上的網頁建立網頁庫,然后運用正排索引和倒排索引建立一個索引庫,用戶在搜索引擎查找信息時,再通過查詢系統呈現給用戶。
做seo的目的是將網站優化的更合理,排到更好的位置將更好的內容呈現給用戶。我們應該從原理層面去理解搜索引擎,掌握它的每一個環節,這樣才能夠將工作做得更好。
心得
做搜索引擎優化不僅要知其然還必須要知其所以然,只有真正明白了搜索引擎原理,我們才能更好的做好SEO。
百度更喜歡原創的內容,我們要明白何為原創,這要理解分詞技術和去重算法,不然即使是你自己寫的一篇文章,也可能會被搜索引擎誤判為抄襲。關鍵詞出現的頻率和位置,以及相關詞的密度,都是影響一篇文章質量的重要因素。
發外鏈有三重意義,一是為網站獲得更多的信任投票,而且只有與網站內容相關的網站的外鏈才能夠傳遞更高的權重。二是為蜘蛛提供更多的入口,有利于蜘蛛抓取網站更多更的內容。是為用戶提供一個入口,用戶可能會通過點擊鏈接而進入網站。
百度是一家商業機構,它擁有自己的盈利模式,而這一切的基礎便是搜索引擎良好的用戶體驗,百度是十分重視用戶體驗的,所以無論搜索引擎的算法如何變,都會是圍繞著用戶體驗為中心的。我們只有圍繞著用戶體驗進行優化,才能使我們的網站更加符合百度的標準,而不會因為過度優化被百度降權。比如網站的扁平化設計,更利于蜘蛛的抓取,更加利于百度的收錄,而從另一方面來說扁平化的設計也更利于簡化用戶的搜索流程,更利于用戶找到自己所需的內容。
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732