歡迎來(lái)到合肥浪訊網(wǎng)絡(luò)科技有限公司官網(wǎng)
  咨詢服務(wù)熱線:400-099-8848

網(wǎng)站日志剖析之聚集式剖析

發(fā)布時(shí)間:2020-01-01 文章來(lái)源:本站  瀏覽次數(shù):2664

在網(wǎng)頁(yè)運(yùn)營(yíng)改版進(jìn)程中,經(jīng)常有設(shè)計(jì)師或許運(yùn)營(yíng)搭檔有這樣的疑問(wèn):我的頁(yè)面到底發(fā)生了多大價(jià)值?這個(gè)頁(yè)面引導(dǎo)的用戶接下來(lái)拜訪了多少商品的頁(yè)面?有沒(méi)有發(fā)生交易?有沒(méi)有到我想讓用戶去的那些頁(yè)面?

假如運(yùn)用數(shù)據(jù)庫(kù)查詢,固然能夠得到一些成果,但查詢進(jìn)程過(guò)于雜亂,數(shù)據(jù)量大的網(wǎng)站查詢耗時(shí)太長(zhǎng),很難靈敏應(yīng)用到一般頁(yè)面。本文提出一種相對(duì)簡(jiǎn)略的剖析方法能夠解決這個(gè)問(wèn)題。

每個(gè)用戶在網(wǎng)站上的拜訪軌跡在網(wǎng)站日志或許數(shù)據(jù)庫(kù)中,都是一串URL,有的只拜訪了一兩步,有的拜訪了成百上千步,如安在如此雜亂繁復(fù)的數(shù)據(jù)中找到用戶在拜訪某個(gè)頁(yè)面(例如服裝首頁(yè))之前或許之后n步,有多少人拜訪過(guò)特定頁(yè)面(例如交易頁(yè)面)?

先拋開(kāi)這個(gè)問(wèn)題,咱們幻想這樣一個(gè)場(chǎng)景:在一個(gè)大會(huì)場(chǎng)中,熟人坐在某個(gè)座位上,假如咱們知道他們的位置,咱們的眼睛很簡(jiǎn)略聚集到這幾個(gè)位置,自動(dòng)疏忽其他座位的人,請(qǐng)參看圖1。相同,人們?cè)谡{(diào)查周?chē)挛飼r(shí),經(jīng)常會(huì)把精力聚集到自己關(guān)懷的事物上,下意識(shí)疏忽其他。咱們從前做過(guò)這樣的試驗(yàn),咱們的報(bào)告廳有4個(gè)很大的外置式擴(kuò)音器,排列在兩側(cè)。注意不是那種不顯眼的內(nèi)置式,任何人只要稍微留神就會(huì)看到。而當(dāng)咱們要求會(huì)場(chǎng)的人閉上眼睛回答會(huì)場(chǎng)有幾個(gè)擴(kuò)音器時(shí),很少有人能給出正確答案,由于大部分人會(huì)關(guān)懷更重要的東西,比方會(huì)議內(nèi)容,提問(wèn)問(wèn)題,乃至是怎么找個(gè)舒適的位子也比擴(kuò)音器的多少更讓人關(guān)懷。

網(wǎng)站日志剖析之聚集式剖析(圖一)

圖1

回到咱們網(wǎng)站碰到的問(wèn)題,某個(gè)項(xiàng)意圖設(shè)計(jì)師關(guān)懷的頁(yè)面并非悉數(shù),而僅僅幾個(gè)與之頁(yè)面有關(guān)的頁(yè)面和部分重要的方針頁(yè)面。因而咱們能夠去除相關(guān)性不大的頁(yè)面,只保存關(guān)懷頁(yè)面,然后縮短用戶途徑,大大提高核算功率。

別的,咱們把索引的思維引入剖析進(jìn)程中,把網(wǎng)頁(yè)的URL按照必定規(guī)則(例如正則表達(dá)式)替換成簡(jiǎn)略字符,把相關(guān)性不大的頁(yè)面核算替換為同一個(gè)字符(例如“0”),把一些過(guò)渡性的頁(yè)面替換成某個(gè)字符(例如”p”),如此以來(lái),每個(gè)用戶的拜訪途徑就能夠表示為一個(gè)字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用戶的拜訪途徑全為相關(guān)性不大的頁(yè)面,此時(shí),途徑為0,0,0,0,0,0,0,0,0,0,0,0,0,0”,這表示用戶并未拜訪到方針頁(yè)面,假如不需求核算用戶比例或用戶分類,那么這樣的記錄咱們能夠刪除去。

假如需求保存其他的用戶信息,例如cookieid,登錄名,拜訪時(shí)刻等信息,這個(gè)字符串會(huì)愈加雜亂些。假如咱們研究意圖比較簡(jiǎn)略,還能夠進(jìn)一步處理,假如不需求對(duì)步長(zhǎng)信息進(jìn)行剖析,咱們能夠去掉相鄰重復(fù)的一些數(shù)據(jù),把上式簡(jiǎn)化為” a,c,0,a,p,c,0,c,t,0”。

這個(gè)進(jìn)程請(qǐng)參看圖2中的①和②,由此咱們能夠得到多個(gè)用戶的途徑的字符串方法的文件。

網(wǎng)站日志剖析之聚集式剖析(圖二)

圖2

得到這個(gè)聚集式用戶途徑文件后,咱們就能夠?qū)@個(gè)字符串文件進(jìn)行剖析了。例如,咱們需求核算a頁(yè)面后有多少個(gè)c頁(yè)面,需求能疏忽中心的翻頁(yè)頁(yè)面(p頁(yè)面)。在上例中的這個(gè)用戶的字符串中,便是1個(gè)用戶,2次c頁(yè)面。假如在拜訪了其他頁(yè)面之后再拜訪c頁(yè)面的行為也可核算入內(nèi)的話,那便是1個(gè)用戶,3次c頁(yè)面。

接下來(lái)便是剖析的樣本量問(wèn)題。一般剖析進(jìn)程中會(huì)考究“多而全”,但數(shù)據(jù)量大到必定級(jí)別,剖析1/10乃至1/100人群與剖析全樣本所得到的成果相差無(wú)幾,花費(fèi)許多資源去提升一點(diǎn)精確度是一件很因小失大的工作。因而能夠酌情剖析小樣本量,節(jié)省剖析成本。

由于方針頁(yè)面業(yè)務(wù)的獨(dú)特性,每次需求剖析的方法也很個(gè)性化。途徑查詢器能夠靈敏應(yīng)對(duì)各種查詢。例如,咱們需求核算a后面有t的人次,a后面緊跟著c的人次,行為契合某種形式的用戶數(shù)有多少等等。需求核算的形式在剖析算法裝備文件(圖2中的③)中進(jìn)行裝備,查詢器會(huì)核算并導(dǎo)出最終成果。

別的,查詢器還支撐分類信息查詢,根據(jù)用戶途徑文件的裝備信息,對(duì)每種分類的人群分別查詢,或許導(dǎo)出契合某種形式的人群Cookieid,用戶名等,與其他數(shù)據(jù)存儲(chǔ)媒介聯(lián)接,取得這部分人群的其他信息,然后進(jìn)行歸納剖析。

這種方法長(zhǎng)處在于比較靈敏,假如網(wǎng)站的URL規(guī)則比較標(biāo)準(zhǔn),在裝備進(jìn)程中能夠多選用正則表達(dá)式,然后能夠發(fā)現(xiàn)更多有趣的現(xiàn)象。

上一條:網(wǎng)站用戶體會(huì)要點(diǎn)分享...

下一條:網(wǎng)頁(yè)規(guī)劃之幾許圓的視覺(jué)焦...