l 评测数据取样

评测数据在各个评测中会出现差别,这主要看试水的结果。

如相关搜索,从试水数据看每个行业之间的bad case会存在差别,那这个项目在取样时就特别注意分行业来选择,每个行业选取等量数据来评测;如主图颜色识别,从试水数据来看多主体图片、杂色图、单一背景图片存在明显的区分,提取数据的时候可以让算法帮助区分出纯色图与杂色图;如女装物美价廉商品,从试水数据看叶子类目间没有明显偏向,这个时候就可以各类目随机抽样。

举例:相关搜索的评测取样方式

[小二分享no.2]评测方案撰写

l 评测工具

在评测方案中,特别要说明评测过程,其中一项就为评测工具。目前淘宝主搜主要用的评测工具为PI(per item)评测工具、SBS(side by side)评测工具、主图颜色识别评测工具等。PI评测工具支持逐条打分,SBS评测工具支持两方对比打分,主图颜色识别评测工具目前只支持主图评测试用。

若没有评测工具支持,一般就在excel中进行操作。

给出评测工具主要是反馈给需求方(即产品经理与工程师),告诉他们我们评测的方式,若有工具则提供工具地址给其查看,若没有工具则在附件加上我们正式数据梳理完成后的格式,做一个周知工作。

举例:主图颜色识别评测工具

[小二分享no.2]评测方案撰写

l 评测打分维度

打分维度也从试水数据中得出。

一般的打分维度都为good(好),bad(差)两档。主图牛皮癣分类更细一些,分为good(好),fair1(轻微文字),fair2(明显文字),bad(差)这样四档。而在kingso新词挖掘项目中,则用“最小语义单元”“复合词”“噪音词”“混淆词”等来对数据进行区分,具体的维度根据项目而有不同。在评测方案中需要写明评测的打分维度,并做举例说明,方便需求方理解。

举例:图像项目打分维度说明

[小二分享no.2]评测方案撰写

l 评测规范

上面有提到评测规范主要是从试水数据中得出。

在试水数据中我们已经对数据进行了打分,区分出了good ,bad的类型,我们就需要将good和bad的情况进行分析,对每一种类型进行举例说明,就可以形成评测规范。

规范的确定一方面是方便其他的评测同学理解保证大家的打分一致性减少主观因素,另一方面是给需求方了解评测的打分尺度以及原因,同时评测规范在评测报告中也能够起事半功倍的作用,如bad case举例分析等,帮助减少报告的时间。

举例:kingso新词挖掘评测规范

[小二分享no.2]评测方案撰写

l 评测时间

评测时间主要根据试水速度与数据总量得出,一般计算需要多少人日,开始时间、结束时间与给出报告时间。

举例:

[小二分享no.2]评测方案撰写

由此评测方案基本完成。在评测方案的撰写前与撰写后都需要与产品经理、技术进行沟通,做好确认工作。评测数据的提取、报告内容的有用性等都与需求方有着密切的联系,只有一份三方都认可的评测方案才是有意义的方案。

更多关于评测的分享,可以关注微博:http://weibo.com/etaosearch,私信必回!

 2/2   首页 上一页 1 2 下一页

文章TAG:类目  小二  流程  
下一篇