2008年1月14日 星期一

20070118異動紀錄分析法(Web log analysis)的特性與應用範圍

Source

林頌堅(19909月)。從網站工作記錄觀察大學圖書館網站使用情形。大學圖書館,42),2-22。網址:http://www.lib.ntu.edu.tw/General/publication/univj/uj4-2/8f01%E6%9E%97%E9%89%A4%E5%A0%85.pdf

異動紀錄分析法用於將網頁的工作紀錄加以整合分析。當使用者利用瀏覽器輸入一個網頁的網址或對網頁中的連結進行點選(hit)等存取網頁資源的行為時,便是對於網站伺服器(web server)發出需求,而網站伺服器將會對於每一個需求留下一些工作記錄,這些工作記錄可分為「交易記錄」(transfer logs)和「錯誤記錄」(error logs),交易記錄是記錄使用者對於網站伺服器發出每一個需求的相關資訊,包括時間、用戶端主機位址和存取資源等造訪及存取資料的紀錄;錯誤記錄則是當網站伺服器對使用者的需求傳回錯誤訊息時,保留在伺服器中的記錄,這些錯誤通常是使用者所要求的資料不存在或是使用者的權限無法存取所需求的資料。另外,網站伺服器中還有兩種較次要的工作記錄:「參考記錄」(referred logs)記載這些需求是從哪些網址(URLUniform Resource Locator)產生的,如由搜尋引擎(search engines)或是其他連結到所需求資源的網頁;與「代理程式記錄」(agent logs)記載哪一種代理程式(agent)對網站伺服器發出需求,這類代理程式以瀏覽器,極小部分是搜尋引擎的自動網頁攫取程武 robot)。基本上,在每一類的網站伺服器中都有記錄這些工作記錄,這些工作記錄都以ASCII形的一般文字(plain text)來記錄,常見的工作記錄格式如W3C格式、NCSA格式等。

交易記錄:交易記錄是對用戶端對伺服器每一筆存取需求的記錄,即是使用者從伺服器中取得一個網頁超文件、靜態圖形或甚至音訊、動態圖形等資料都會在工作記錄中留下一筆記錄。從對於交易記錄各個欄位的分析,如果我們利用簡單的統計去分析某一部網站伺服器在一段期間的工作記錄,便可以獲知在這段期間內,在這部伺服器中各項存取的資訊,如一段時間(月、週、日或小時)中伺服器中的資訊存取次數、用戶端的主機發出資料需求的次數、伺服器中每一項資料被存馭的次數、資料要求成功或失敗的次數等等。這些統計資訊是以存取次數為基礎的,當工作記錄中的資料量足夠的情形下,我們可以將這些資訊再延伸,以獲得更詳盡的資料分析使用者取用網頁行為。

造訪記錄:某些以使用者上站造訪為基礎的資訊,如某些用戶端主機在某段期間內上站的次數、以伺服器中的那一個網頁為進站網(entry page)或離站網頁(exit page)的次數等等,或是較複雜的資訊,如使用者在上站時存取資源順序的形式(pattern),這些造訪記錄資訊在分析使用者行為時是相當有用的資訊。比方說,如果大部分上站的使用者都不是由首頁進入,也就是以首頁作為進站網頁的比例過低,設計者或管理者便可仔細思考網站的架構是否不佳,而應重新設計網站。再者,例如多數的上站中存在某些常見的存取資源順序的形式,而這些順序相當長,設計者或管理者也可以加以思考是否重新組織網站架構,方便使用者迅速存取相關資料。但若是工作記錄中只有以存取記錄為基礎的資訊,沒有前後相關的資料,這些資訊便無法得知。

一般網站工作記錄分析工具所提供的功能有分析各項統計項目,如存取資源、用戶端主機和網域、進站網頁、離站網頁、資源存取的順序等等,並可將分析結果組合成真有較高可讀性的表格與報告。這些統計訊息的表格與報告便可利用來作為進一步分析的依據。一些較精緻的分析工具也可以將分析結果以各類統計圖表顯示,可以用更具體的圖像提供更清楚的展示。某些分析工具並具有過濾某些存取資源或主機位址的記錄,方便進行分析。甚至商業用途的網站工作記錄分析工具還可將初步分析結果存成SQL形式的關連式資料庫(relational databases),將分析過的資料儲存起來,可以進行「資料倉儲」(data warehousing)的處理,加入一些人工智慧的方法可以提供更精確且更豐富的網站使用資訊。

有些使用者以瀏覽器進入網站,取得網頁資料後,可能因為某些事件的耽擱而必須多次暫時離開,等事件結束後再返回,目前一般網站工作記錄分析工具多會將此次上站統計成多次到訪記錄。在圖書館網站的分析上,這個問題更加嚴重。因為圖書館提供許多開放的電腦做為連線的用戶端主機供使用者在館中使用WebPac或查詢其他資訊。在這種狀況下,如果不同使用者使用的間隔時間太短,或甚至部分使用者在離開後沒有關閉瀏覽器,下位使用者便直接使用已經連上圖書館網站的瀏覽器之情形下,網站工作記錄分析工具會將這兩次不同使用者的上站做為一次到訪記錄,破壞上站記錄的分析。

其次,由於共用電腦、網際網路及區域網路的特性,網站工作記錄所記錄的是用戶端的主機IP位址可能並非實際使用者的識別資訊,故在工作記錄中我們可以觀察到許多代理伺服器所提出的需求,但無法確實知道是從哪一用戶端所發出的。

最後,正如前面所提到的工作記錄中的資料相當龐大,需要借助網站工作記錄分析工具的輔助才能獲得大概的資訊。但是每一套網站工作記錄分析工具用來進行統計分析的演算法與經驗法則都有所不同,所以網站工作記錄分析工具所得到的結果雖仍可提供網站管理者做為參考,但不是十分精確。

從上面的分析,可以知道網站工作記錄所能提供資訊的限制在於無法提供十分精確的使用者網站使用行為,但我們還是可以利用交易記錄與網站工作記錄分析工具得到下少有用 的資料。交易記錄所能提供的資訊有上站的日期時間、使用的網頁資料或功能、與用戶端的主機位址等等。這些資訊可以分成時間、使用者與資源等三個方面。所以,最基本我們可以知道使用網站的時機(如:月份、日期、假期與平日等等)、可能的使用者來源(如:某一特定位址的用戶端主機、校內主機或校外主機、館內主機與非館內主機等等)與所使用的資源與功能,並可以綜合分析這些資訊而得到不同使用者來源利用網站的時機、下同使用者來源所利用的網站資源與功能、某一網站資源與功能被使用的時機等等,這些資訊有助於我們暸解使用者利用網站的目的,並由此來增益網站的效能。

沒有留言:

張貼留言