「大千搜尋」- 搜尋引擎的侷限與瓶頸分析

「大千搜尋」- 搜尋引擎的侷限與瓶頸分析

搜尋引擎的侷限與瓶頸分析

因應網際網路資訊的快速發展,網絡用戶要找的資料有如大海撈針,為了滿足大眾對於資訊檢索的需求,於是搜尋引擎的服務便蘊育而生,搜尋引擎的發展已經與現代生活密不可分,搜尋引擎幾乎無所不搜無所不怪,人們習慣突然想到什麼,便直接打開搜尋引擎尋求答案,它對現今人類的影響力有目共睹,現在搜尋引擎的搜尋效能如何,其實很少人會進而去探究,因為一般人只要從中得到 一個相關訊息,便能獲得搜尋功能上的滿足,但對於媒體或是行銷推廣人員而言,滿足需求就不是那麼容易,目標是每個資訊都能獲得搜尋閱覽,然而搜尋引擎真正的搜尋效能,需要檢測準確率/精確率/召回率等指標,否則茫茫網海所產生的眾多遺珠之憾,我們自己則全然不知。針對市場用戶最多的Google搜尋,我們做了一些搜尋檢測,並列出一些常見的問題,讓大家了解搜尋引擎存在的侷限與瓶頸。

問題一. 相同關鍵字搜尋的結果不穩定

如果每天使用相同關鍵字搜尋,照正常的理解結果,每天得到的結果都要差不多,如果點閱率的差異影響搜尋排序的結果,應該也是線性的影響,點點閱率比較差的項目,會逐漸地往後排序,但我們常常發現一個非線性現象,相同關鍵字搜尋的結果,某些項目偶而會消失, 也偶而會出現,當它消失不見之時,後面的頁次也找不著,這意思就是完全消失不見了,我們以「大千搜尋」以及「萬物聯網」做關鍵字測試,發現有少數搜尋得到的項目,會發生偶而消失偶而出現情況,如下兩個範例,使用紅色框線框起來的項目,就是呈現上述的案例,用戶只要天天搜尋同樣的關鍵字做比較,就會發現存在這樣的問題。

問題二. 符合多個關鍵字搜尋的結果無法以一個關鍵字得到同樣搜尋的結果

我們同樣以「大千搜尋」以及「萬物聯網」做關鍵字測試,當符合兩個關鍵字的項目被搜尋出來,按照正常的邏輯思維,符合一個關鍵字的項目應該也要被搜尋出來,但實際測試的結果,如下圖例,以「大千搜尋」與「萬物聯網」兩個關鍵字的搜尋結果,列表結果中我們鎖定左圖兩個項目,這兩個項目剛好是同一新聞發佈在不同的媒體,然後我們再以「大千搜尋」單一關鍵字做搜尋,搜尋結果應該也要得到這兩篇新聞項目,但發現紅色框線框起來的項目沒有被搜尋出來,同樣地,當它沒有被搜尋出來之時,後面的頁次也是找不著的,這代表搜尋引擎處理結果存在隨機性,按照常理越是上面的項目,點閱率應該是比較高的,為啥上面的項目會優先於下面項目消失令人不解。

問題三. 發佈在同一網站的資訊符合關鍵字的搜尋結果,只能顯示一個或兩個項目

我們通常習慣使用同一個社群或部落格,發佈個人的文章資訊,但會發現搜尋引擎對於同一個網站資訊,會有顯示數量的限制,筆者以部落格為例,為了所屬大千搜尋網站的推廣需要,撰寫了一些推廣文都發佈在udn部落格,當使用「大千搜尋」關鍵字搜尋之時,如下圖示的搜尋結果,僅顯示一篇udn部落格文章,其餘的文章在其他頁次都找不到,讓人匪夷所思,面對此結果建議的應對策略是,文章最好分散發佈在不同社群或部落格,否則資訊可能有無法被搜尋出來的疑慮。此外,依據一段時間觀察,時間較久或是點閱率較差的雲端資訊,也發現存在無法被搜尋出來的情況,針對這個問題,筆者認為與其搜出一堆不符需求的資訊,還不如加強資訊的蒐集能力,無論資訊是否較久或較差點閱率,只要不是所謂的時效性資訊,Google應保留所有資訊平等被搜尋的特性。

問題四. 搜尋語法呈現混亂的結果

理論上單一關鍵字查詢結果,比較不易找到搜尋的目標,所以若要提高搜尋準確率,可以使用多個關鍵字的進階搜尋方式,舉例最常使用的兩種語法,第一種利用”OR”或空格(” “),這個語法只需符合其中一個關鍵字,便會顯示符合的結果,第二種利用AND或+號,這個語法需符合全部關鍵字,才會顯示符合的結果,然而我們以四個字的單一關鍵字做搜尋輸入,Google會自動將之拆分為兩個關鍵字詞做索引,例如以下圖示,以「萬物聯網」關鍵字搜尋,同時會拆成「萬物」與「聯網」,此搜尋處理作法,實際上已混入了進階搜尋語法,包含「萬物」AND「聯網」,加上「萬物」OR「聯網」,但我們以「萬物聯網」搜尋之目的在查詢含有此專有字詞的頁面,自動拆分關鍵字將大大降低原有搜尋需求的結果,因為「萬物」與「聯網」各別的搜尋結果皆非原有搜尋的動機,若Google的關鍵字因索引處理必要進行拆分,合理的搜尋呈現的結果,應是符合「萬物聯網」關鍵字先顯示完結果後,然後再顯示拆分關鍵字的其他項目,才是合理的處理方式,而非混合呈現結果,除非字詞為動詞與名詞之組成,例如「清洗水塔」,才會比較適合拆成兩個字詞。

關於搜尋效能評估

誠如一開始所述,對於搜尋引擎的搜尋效能如何,一般人其實很少人會去探究,因為只要可以得到一個符合的資訊,便可滿足用戶搜尋的動機,然而用戶不單只是閱覽資訊的角色,許多用戶則是以資訊提供的角色自居,例如媒體單位或是行銷推廣人員,如果搜尋引擎資訊搜尋效能不彰,許多辛苦撰寫與經營的資訊,便會能見度不彰甚至無法被他人閱覽,所以搜尋效能對於資訊提供者而言十分重要,評估搜尋引擎的搜尋效能,可以經由準確率/精確率/召回率等指標做檢測,基於上述所提到的問題,實際上都會涵蓋在檢測的結果中,我們可以利用以下指標做評估,便可得知搜尋引擎的真實效能。

根據關鍵字搜尋的結果,搜尋列出的結果可以分成以下四種:

  1. TP (True Positive): 原本是正類,預測結果為正類。(正確預測為正類)
  2. FP (False Positive): 原本是負類,預測結果為正類。(錯誤預測為正類)

以上兩個參數,評估用於搜尋列出的結果,如果被列出來的項目是正確就是TP,如果被列出來的項目不是正確就是FP。

  1. TN (True Negative): 原本是負類,預測結果為負類。(正確預測為負類)
  2. FN (False Negative): 原本是正類,預測結果為負類。(錯誤預測為負類)

以上兩個參數,評估用於沒有被列出來的結果,如果不需列出的項目,沒有被列出來就是TN,如果需列出的項目,而沒有被列出來就是FN。

準確率 precision = TP / (TP + FP) : 此指標檢測搜尋出來的結果有多少是正確的,我們以兩種特性的關鍵字做檢測,首先以冷門關鍵字做搜尋,我們以搜尋結果的前50筆項目,用來估算搜尋準確率,最後經由實際結果,得到的數值約為20%,這個數字代表的意思是,50筆的搜尋結果,只有10筆是符合要參考的信息。 如果以相對熱門關鍵字做檢測,同樣以搜尋結果的前50筆項目,用來估算搜尋準確率,其準確率可以提升到30%。事實上,不論關鍵字是冷門還是熱門,理論上應可以獲得同樣的準確率,在此我們合理地懷疑,這是Google刻意降低冷門關鍵字的準確率,目的是讓自身的SEO廣告獲得成長。

精確率 accuracy = (TP + TN) / (TP + FP + TN + FN): 一般而言使用準確率做指標便已足夠,除非模型無法正確分辨真假,我們便需要使用精確率衡量,但精確率需要涵蓋的樣本不同,單單由搜尋結果無法得出TN參數,所以這裡不做精確率估算。

召回率 recall = TP / (TP + FN):所有相關資訊的項目中有多少被搜尋出來,通常要看召回率指標,理論上,準確率和召回率越接近1,說明搜尋模型的效果越好,但是實際應用也不一定,取決於場景更傾向於哪一種,例如我們去某搜索引擎搜尋XX病,一共返回了10條結果,其中5條非相關信息,5條有用的相關信息,那麽準確率就是50%,而後臺數據庫中一共就5條有用的相關信息,召回率卻是100%。在此利用我們實際的發佈的資訊樣品做檢測,測得的召回率數值約為15%,這意謂關鍵字搜尋的結果,無法將我們大部分放在雲端的資訊搜尋出來,需要加強相關詞義與SEO 效果, 然後才能將召回率持續提升。

 

(作者簡介:黃柏堯,現為大千實體搜尋引擎(大千搜尋)創辦人。由於電子商務大格局創新幾乎源自國外,台灣在此領域創新可謂一片荒蕪,擅長觀察科技發展趨勢的中年大叔,在新世代搜尋引擎找到了方向與使命,乃毅然捨棄高薪投入創業,期能引領台灣電子商務的創新走出荒漠。)

 

延伸閱讀: 

CTIMES: 大千搜尋-線下服務應用與HTML規範發展

CTIMES: 大千搜尋-搜尋引擎下一波機會在哪裡?

EET 電子工程專輯: 大千搜尋-突破物聯網發展瓶頸的最後一哩路

EET 電子工程專輯: 大千搜尋-解析物聯網的真實商機與發展方向

EET 電子工程專輯: 大千搜尋-建構自有HMS生態 華為能怎麼做?

天下雜誌 : 外送風潮能持續嗎?談物流「宅經濟」的隱憂與未來

數位時代 : 外送服務撞出來的不止雇傭問題!隱藏的未爆彈跟未來該如何應對?

風傳媒 : 大千搜尋-中美貿易戰的服務應用限制,企業該如何因應佈局?

風傳媒 : 挖掘下一個獨角獸─台灣需要的創業發展政策

科技報橘 : 張忠謀 56 歲才創立台積電,為什麼現在年齡會成為台灣創業環境阻力?

INSIDE : 挖掘台灣下一個獨角獸 政策的因應與調整做法

工商時報 : 大千搜尋-開創華為服務應用生態策略論點

物聯之家/PChome新聞 :「大千搜尋」創辦人專訪 – 剖析物聯網的發展方向與商機

Yahoo奇摩新聞/今日新聞 : 挖掘台灣下一個獨角獸

Yahoo奇摩新聞/工商時報 : 大千搜尋-引爆物聯網商機的關鍵推手

Yahoo奇摩新聞/工商時報 : 大千搜尋-從外送問題看共享平台的發展模式

Yahoo奇摩新聞/蕃薯藤新聞/HiNet新聞/LineToday/新浪網/PChome新聞 :
線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務

 

文章授權(創用CC授權)
by-nc-sa
comment

CONTACT US

We're not around right now. But you can send us an email and we'll get back to you, asap.

Sending

©2020 Business Next Publishing Corp. 聯絡、建議隱私權

Log in with your credentials

or    

Forgot your details?

Create Account