高德技術(shù)評(píng)測(cè)建設(shè)之路-創(chuàng)新互聯(lián)

前言

成都創(chuàng)新互聯(lián)公司主營(yíng)湘西土家族網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,app軟件定制開(kāi)發(fā),湘西土家族h5微信小程序開(kāi)發(fā)搭建,湘西土家族網(wǎng)站營(yíng)銷推廣歡迎湘西土家族等地區(qū)企業(yè)咨詢

近幾十年是互聯(lián)網(wǎng)高速發(fā)展的時(shí)代。隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展壯大,必然會(huì)出現(xiàn)角色的細(xì)分,從而演化出了不同的職能崗位。隨著日益激烈的市場(chǎng)競(jìng)爭(zhēng),修煉內(nèi)功,提升產(chǎn)品效果也成為了各公司發(fā)展的重要工作。產(chǎn)品效果如何評(píng)估?用戶體驗(yàn)如何度量?本文試圖闡述 評(píng)測(cè)這一新崗位在高德的主要職責(zé),發(fā)展進(jìn)化過(guò)程,以及這一崗位所負(fù)責(zé)的產(chǎn)品效果評(píng)估手段與體系搭建。

當(dāng)你在各搜索引擎輸入評(píng)測(cè)二字時(shí),看到的相關(guān)搜索通常是這樣的:

高德技術(shù)評(píng)測(cè)建設(shè)之路

高德技術(shù)評(píng)測(cè)建設(shè)之路

這些問(wèn)題其實(shí)能代表大部分人對(duì)評(píng)測(cè)的了解——就是除了游戲評(píng)測(cè)、手機(jī)評(píng)測(cè)、汽車評(píng)測(cè)、生活用品評(píng)測(cè)之外,人們對(duì)評(píng)測(cè)其實(shí)不太了解?;ヂ?lián)網(wǎng)公司里Title是評(píng)測(cè)的同學(xué)又是做什么的呢?也許大家的了解就更少了。

做了三年多的評(píng)測(cè),在第一年經(jīng)常面對(duì)的靈魂拷問(wèn)就是:“你們?cè)u(píng)測(cè)是做什么的?”這種問(wèn)題回答起來(lái),基本類似于哲學(xué)的終極三問(wèn)了:“你是誰(shuí)?你從哪兒來(lái)?你到哪兒去?”

評(píng)測(cè)是誰(shuí)?這是評(píng)測(cè)的定位問(wèn)題。評(píng)測(cè)從哪兒來(lái)?這是評(píng)測(cè)的根基和起源。評(píng)測(cè)要到哪兒去?這是評(píng)測(cè)的發(fā)展目標(biāo)和方向。

評(píng)測(cè)是誰(shuí)?

簡(jiǎn)單地說(shuō), 評(píng)測(cè)是評(píng)估產(chǎn)品效果的團(tuán)隊(duì)。希望能站在用戶的角度,在上線前驗(yàn)證需求效果,在上線后通過(guò)對(duì)自身、用戶數(shù)據(jù)和競(jìng)品的全面分析,建立起產(chǎn)品立體的效果評(píng)估體系,也就是評(píng)測(cè)體系。

評(píng)測(cè)從哪兒來(lái)?

要回答這個(gè)問(wèn)題,其實(shí)就是——為什么要評(píng)測(cè)?

如同每個(gè)版本更新,我們都會(huì)關(guān)心性能如何一樣,當(dāng)上線了新的策略時(shí),大家也會(huì)同樣關(guān)心產(chǎn)品的效果。產(chǎn)品效果如何評(píng)估?策略相關(guān)的需求開(kāi)發(fā)完成之后,研發(fā)實(shí)現(xiàn)的實(shí)際效果是否和產(chǎn)品經(jīng)理的預(yù)期一致?實(shí)際效果又是否和用戶的預(yù)期一致?在理想情況下,這三者應(yīng)該是無(wú)差異的。但我們也應(yīng)該有衡量它們之間是否有差異的方式,給出效果變化是否正向的結(jié)論,以更好地保障用戶的使用體驗(yàn)。

此外,即使上線前,所有人都一致給出了正向結(jié)論,認(rèn)為需求上線后一定會(huì)給用戶體驗(yàn)帶來(lái)極大提升。真實(shí)的產(chǎn)品體驗(yàn)如何,仍然得用戶說(shuō)了算。比較大的修改可以通過(guò)AB實(shí)驗(yàn)的方式圈出小部分用戶,快速收集用戶數(shù)據(jù),進(jìn)一步對(duì)需求效果是否正向做出評(píng)價(jià)。或者直接上線,通過(guò)對(duì)行為數(shù)據(jù)及用戶反饋的分析來(lái)完成線上評(píng)估。

同時(shí),要在市場(chǎng)上找準(zhǔn)自己的位置,對(duì)競(jìng)品的分析必不可少。

有了這些效果評(píng)估及分析的需求,就有了評(píng)測(cè)團(tuán)隊(duì)。

高德技術(shù)評(píng)測(cè)建設(shè)之路

如何進(jìn)行評(píng)測(cè)

上線前的離線效果評(píng)測(cè)及分析、AB實(shí)驗(yàn)及分析、上線后的指標(biāo)監(jiān)控及問(wèn)題分析、問(wèn)題挖掘,競(jìng)品監(jiān)控和分析是常見(jiàn)的評(píng)測(cè)手段。

高德技術(shù)評(píng)測(cè)建設(shè)之路

一、離線評(píng)測(cè)

上線前,針對(duì)產(chǎn)品的需求,評(píng)測(cè)的職責(zé)是通過(guò)各種方式分析及驗(yàn)證產(chǎn)品效果,給出是否能達(dá)到上線標(biāo)準(zhǔn)的結(jié)論,同時(shí)分析出頭部問(wèn)題所在。

技術(shù)評(píng)測(cè)團(tuán)隊(duì)成立之初,主要建設(shè)的部分有:確定合作流程、建設(shè)評(píng)測(cè)專業(yè)能力和建設(shè)評(píng)測(cè)工具。

  • 合作流程

對(duì)標(biāo)一個(gè)版本開(kāi)發(fā)的項(xiàng)目流程,從需求確定到開(kāi)發(fā),到測(cè)試驗(yàn)證再到上線。評(píng)測(cè)從需求串講階段開(kāi)始,明確有哪些需求涉及到效果變化。再根據(jù)變化情況制定評(píng)測(cè)方案,同時(shí)檢查工具是否符合需要,如否則進(jìn)入工具快速開(kāi)發(fā)階段。然后獲取評(píng)測(cè)數(shù)據(jù),進(jìn)入評(píng)估驗(yàn)證階段,最后發(fā)送報(bào)告,給出需求是否通過(guò)評(píng)測(cè)的結(jié)論,并對(duì)出現(xiàn)的問(wèn)題進(jìn)行總結(jié)分類。

高德技術(shù)評(píng)測(cè)建設(shè)之路

對(duì)于評(píng)測(cè)介入的不同業(yè)務(wù)線來(lái)說(shuō),評(píng)測(cè)的流程大致相同。但由于業(yè)務(wù)不同,評(píng)測(cè)方案與方式會(huì)有很大不同。

  • 評(píng)測(cè)方案

根據(jù)產(chǎn)品需求,明確效果修改影響范圍,從而確定評(píng)測(cè)樣本、評(píng)測(cè)方式和評(píng)測(cè)標(biāo)準(zhǔn)。

  • 評(píng)測(cè)樣本

評(píng)測(cè)樣本通常會(huì)根據(jù)需求影響范圍的不同,區(qū)分為隨機(jī)語(yǔ)料和特定語(yǔ)料。

特定語(yǔ)料一般針對(duì)需求修改的特定維度、類型進(jìn)行抽取,目的是保證評(píng)測(cè)任務(wù)的覆蓋率。隨機(jī)語(yǔ)料則是為了反映需求的真實(shí)影響范圍。當(dāng)一個(gè)評(píng)測(cè)任務(wù)需要使用特定語(yǔ)料時(shí)。通常建議使用特定及隨機(jī)語(yǔ)料各一份,以同時(shí)保證足夠的覆蓋,同時(shí)了解真實(shí)影響范圍,確保不會(huì)出現(xiàn)不符合預(yù)期的變化。

除真實(shí)語(yǔ)料外,在特定場(chǎng)景下也會(huì)使用自己構(gòu)建的語(yǔ)料。通常原因?yàn)椋?)策略上線之前沒(méi)有真實(shí)線上語(yǔ)料;2)影響的場(chǎng)景太小,在真實(shí)語(yǔ)料中很難找到足夠的Case。

  • 評(píng)測(cè)標(biāo)準(zhǔn)

評(píng)測(cè)標(biāo)準(zhǔn)通常涉及到一個(gè)概念,即真值。當(dāng)某類數(shù)據(jù)在現(xiàn)實(shí)世界中有唯一正確答案時(shí),即有絕對(duì)真值存在,如數(shù)據(jù)信息。因此我們對(duì)這類數(shù)據(jù)的評(píng)價(jià)標(biāo)準(zhǔn)就是是否跟真值一致。

另一類是相對(duì)真值。來(lái)源可以是用戶日志。例如,當(dāng)我們?cè)谂袛嗵峁┙o用戶的預(yù)計(jì)到達(dá)時(shí)間(ETA)是否正確時(shí),可以用用戶在起終點(diǎn)之間的真實(shí)行駛時(shí)間作為真值和我們的預(yù)估時(shí)間進(jìn)行對(duì)比。但由于單一用戶的實(shí)際行駛時(shí)間受個(gè)人行駛習(xí)慣以及單次的行駛情況所影響,并不是完全準(zhǔn)確的。因此是相對(duì)真值。在搜索等業(yè)務(wù)線,用戶的點(diǎn)擊行為,也可以成為相對(duì)真值,從而成為效果評(píng)測(cè)的標(biāo)準(zhǔn)。

是否有真值,真值是否容易獲取,能否大批量自動(dòng)化的獲取,是在確認(rèn)評(píng)測(cè)標(biāo)準(zhǔn)時(shí)需要做的判斷。

  • 評(píng)測(cè)方式

對(duì)應(yīng)不同的評(píng)測(cè)目的,我們給出不同的離線評(píng)測(cè)方式。有真值的業(yè)務(wù),通過(guò)真值的自動(dòng)獲取或者標(biāo)注,可以實(shí)現(xiàn)自動(dòng)化評(píng)測(cè)。而無(wú)真值的業(yè)務(wù)線,判斷效果好壞的成本較高,通常需要進(jìn)行人工評(píng)測(cè)或者半自動(dòng)化評(píng)測(cè)。

高德技術(shù)評(píng)測(cè)建設(shè)之路

人工評(píng)測(cè),顧名思義,就是靠人力打分。各搜索公司大概是最早對(duì)自己的產(chǎn)品進(jìn)行效果評(píng)估的,谷歌、微軟、百度、蘋果等,都采用了類似的方式對(duì)質(zhì)量進(jìn)行評(píng)價(jià)。

Google曾經(jīng)發(fā)布過(guò)長(zhǎng)達(dá)164頁(yè)的人工質(zhì)量評(píng)估指南。百度和必應(yīng)也發(fā)布過(guò)類似的文檔。

蘋果在介紹自己的評(píng)測(cè)體系時(shí),也曾經(jīng)專門解釋過(guò)Human Judgement metrics, why we track them?

  • 可以在上線前發(fā)現(xiàn)版本問(wèn)題。

  • 人工評(píng)測(cè)的指標(biāo)與定量指標(biāo)緊密關(guān)聯(lián)。

  • 可以定義一個(gè)版本的整體質(zhì)量,并可持續(xù)跟進(jìn)效果變更。

  • 比用戶反饋更詳細(xì),更容易定位問(wèn)題。

人工評(píng)測(cè)缺點(diǎn)不用多說(shuō),成本高、覆蓋面小、效率偏低。因?yàn)樗膬?yōu)點(diǎn),目前仍然是各公司評(píng)測(cè)體系不可缺少的一部分。與別的評(píng)測(cè)手段結(jié)合使用時(shí),能起到很好的效果。

要保證人工評(píng)測(cè)的質(zhì)量和效率,有三個(gè)關(guān)鍵點(diǎn),一是標(biāo)準(zhǔn),二是流程,三是工具。

標(biāo)準(zhǔn)文檔,類似于操作手冊(cè),目的是降低人員培訓(xùn)成本,并在一些較難判斷的Case上,盡量減少大家認(rèn)知上的差異。所以標(biāo)準(zhǔn)文檔應(yīng)該越傻瓜越好。定義明確、所有的特殊和例外場(chǎng)景都有示例、在實(shí)踐中反復(fù)檢驗(yàn),并且保持更新頻率。文檔更新應(yīng)該有專人負(fù)責(zé),并且明確更新周期,同時(shí)將更新點(diǎn)同步到所有評(píng)估人員。

人工操作錯(cuò)誤在所難免,沒(méi)人能達(dá)到百分百的準(zhǔn)確。同時(shí)需要人工評(píng)測(cè)的評(píng)測(cè)對(duì)象,通常本身沒(méi)有客觀統(tǒng)一的確定答案,因此大家難免在判斷上有差異。這些問(wèn)題都需要從流程上加以保障。如同一Case必須多人標(biāo)注,僅保留一致率較高的Case,否則便丟棄?;蛘卟捎贸鯇弿?fù)審制,經(jīng)驗(yàn)較少的人員進(jìn)行初審,高級(jí)人員進(jìn)行復(fù)審。

盲審,這種方式通常在對(duì)比時(shí)使用,去掉新舊版或者左右版的標(biāo)識(shí),并且讓結(jié)果隨機(jī)出現(xiàn),從而保證評(píng)測(cè)人員的客觀性,不受主觀因素影響。

人工評(píng)測(cè)中的人,通常也有兩種身份。一種是普通用戶,一種是專家。專家評(píng)測(cè)需要站在更專業(yè)的視角,結(jié)合自己對(duì)業(yè)務(wù)的理解和經(jīng)驗(yàn)才能得出結(jié)論。另一種則是普通用戶也能站在自己的視角給出效果好壞。后一種可以進(jìn)行眾測(cè),達(dá)到較大范圍的收取用戶體驗(yàn)與反饋,同時(shí)獲得一些真實(shí)數(shù)據(jù)支持迭代優(yōu)化的效果。地圖導(dǎo)航由于其專業(yè)性,通常需要進(jìn)行專家評(píng)測(cè)。

  • 評(píng)測(cè)工具

評(píng)測(cè)工具是評(píng)測(cè)效率和質(zhì)量的保證。核心功能包括,數(shù)據(jù)倉(cāng)庫(kù)、任務(wù)管理、任務(wù)的抓取和解析,diff統(tǒng)計(jì)和篩選,任務(wù)實(shí)例的展示、評(píng)測(cè)、流轉(zhuǎn),抽樣、分配,結(jié)果管理、自動(dòng)化報(bào)告。

高德技術(shù)評(píng)測(cè)建設(shè)之路

通用流程之外的任務(wù)類型、打分方式、 Case形態(tài)都可以自己定義。由于大部分是對(duì)比類的評(píng)測(cè)任務(wù),如何做diff也非常關(guān)鍵,盡量把業(yè)務(wù)關(guān)注的各個(gè)重點(diǎn)都進(jìn)行diff差分。以便快速了解迭代效果影響面,以及快速定位問(wèn)題。專家型評(píng)測(cè)在分析和定位問(wèn)題時(shí),還需要輔助分析或者判斷的數(shù)據(jù)及工具。工具的接入常常能極大地提高評(píng)測(cè)效率。

人工評(píng)測(cè)能夠良好運(yùn)行,有了一定的評(píng)測(cè)經(jīng)驗(yàn)積累和業(yè)務(wù)了解之后,開(kāi)始進(jìn)行半自動(dòng)化和自動(dòng)化的評(píng)測(cè)建設(shè)。

方式包括定義指標(biāo)波動(dòng)閾值和極端Case的冒煙評(píng)測(cè),及模擬人工評(píng)測(cè)的自動(dòng)打分模型。

自動(dòng)打分模型通過(guò)學(xué)習(xí)人工評(píng)測(cè)的特征,自動(dòng)給出GSB的評(píng)分,統(tǒng)計(jì)評(píng)分結(jié)果,對(duì)評(píng)測(cè)任務(wù)的效果進(jìn)行初步判定。目前可以成為輔助判斷的參考手段。

高德技術(shù)評(píng)測(cè)建設(shè)之路

冒煙評(píng)測(cè)先定義出業(yè)務(wù)核心關(guān)注的場(chǎng)景和維度,設(shè)定指標(biāo)。并根據(jù)既往評(píng)測(cè)經(jīng)驗(yàn)計(jì)算出可接受的波動(dòng)閾值。另外定義出在效果變化上不可接受的惡劣Case。對(duì)于部分需要快速驗(yàn)證上線的實(shí)驗(yàn),可以實(shí)現(xiàn)縮短評(píng)測(cè)周期,并保證無(wú)異常的效果。在部分業(yè)務(wù)線借此實(shí)現(xiàn)了自動(dòng)發(fā)布上線的過(guò)程。

指標(biāo)分析+異常檢驗(yàn)的評(píng)測(cè)方式,是目前無(wú)真值業(yè)務(wù)線離線評(píng)測(cè)的最佳實(shí)踐方式之一。通過(guò)定義整體指標(biāo)、場(chǎng)景指標(biāo)、異常指標(biāo),形成較為全面的指標(biāo)體系。觀察新版本在不同情況下的指標(biāo)整體波動(dòng)和分布變化。在過(guò)程中篩出異常Case再進(jìn)行人工校驗(yàn)。最終根據(jù)指標(biāo)變化情況和人工檢驗(yàn)結(jié)果給出結(jié)論。如無(wú)異常則可以快速通過(guò)評(píng)測(cè)。

最后, 路測(cè)是導(dǎo)航產(chǎn)品效果驗(yàn)證的終極手段。從用戶視角體驗(yàn)并評(píng)估全過(guò)程。雖然成本高,效率低,但必不可少,與其他手段并用,也是上線前效果保障的方式之一。

二、AB實(shí)驗(yàn)

部分需求尤其是模型調(diào)優(yōu)。需要上線觀察效果。因此在快速通過(guò)離線評(píng)測(cè)之后,進(jìn)入AB階段進(jìn)行效果評(píng)估。

高德技術(shù)評(píng)測(cè)建設(shè)之路

AB的核心鏈路是分流打標(biāo)、指標(biāo)觀測(cè)和實(shí)驗(yàn)結(jié)論產(chǎn)出。關(guān)鍵點(diǎn)是實(shí)驗(yàn)的科學(xué)性。效果評(píng)估鏈路中,AB能力的具備不難,但AB實(shí)驗(yàn)的建設(shè)是個(gè)長(zhǎng)期的過(guò)程,在此不贅述。

三、線上驗(yàn)證

經(jīng)過(guò)離線驗(yàn)證、AB實(shí)驗(yàn),證明效果都是正向之后,需求通常全量上線,上線之后的效果如何,需要對(duì)線上指標(biāo)進(jìn)行分析,并觀察用戶反饋情況,了解是否在核心指標(biāo)上有預(yù)期的收益,以及觀察指標(biāo)是否有異常變化。

一個(gè)產(chǎn)品的核心是滿足用戶需求,創(chuàng)造用戶價(jià)值。因此是否滿足了用戶需求,用戶滿意度如何,產(chǎn)品在市場(chǎng)上的情況怎么樣,必然是一個(gè)產(chǎn)品創(chuàng)造者要長(zhǎng)期關(guān)注和回答的問(wèn)題。以上便是我們?cè)噲D去回答這些問(wèn)題的方式。

結(jié)語(yǔ)

評(píng)測(cè)的建設(shè)過(guò)程,其實(shí)也是產(chǎn)品效果評(píng)估立體體系的搭建過(guò)程。這個(gè)職責(zé)在任何一個(gè)互聯(lián)網(wǎng)公司都需要有人承擔(dān)。不過(guò)角色也許是測(cè)試、也許是產(chǎn)品、也許是運(yùn)營(yíng)。在高德,之所以把這個(gè)角色獨(dú)立出來(lái),源于對(duì)用戶體驗(yàn)和產(chǎn)品效果的重視。這一體系當(dāng)然遠(yuǎn)遠(yuǎn)未臻完美,還在不斷搭建進(jìn)化的過(guò)程中,我們始終希望能夠通過(guò)不斷努力,讓出行更美好。

網(wǎng)頁(yè)題目:高德技術(shù)評(píng)測(cè)建設(shè)之路-創(chuàng)新互聯(lián)
本文地址:http://bm7419.com/article42/hdeec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、商城網(wǎng)站、網(wǎng)站排名關(guān)鍵詞優(yōu)化、網(wǎng)站收錄、電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司