[小二分享no.2]评测方案撰写

l 评测数据取样

评测数据在各个评测中会出现差别，这主要看试水的结果。

如相关搜索，从试水数据看每个行业之间的bad case会存在差别，那这个项目在取样时就特别注意分行业来选择，每个行业选取等量数据来评测；如主图颜色识别，从试水数据来看多主体图片、杂色图、单一背景图片存在明显的区分，提取数据的时候可以让算法帮助区分出纯色图与杂色图；如女装物美价廉商品，从试水数据看叶子类目间没有明显偏向，这个时候就可以各类目随机抽样。

举例：相关搜索的评测取样方式

[小二分享no.2]评测方案撰写

l 评测工具

在评测方案中，特别要说明评测过程，其中一项就为评测工具。目前淘宝主搜主要用的评测工具为PI（per item）评测工具、SBS(side by side)评测工具、主图颜色识别评测工具等。PI评测工具支持逐条打分，SBS评测工具支持两方对比打分，主图颜色识别评测工具目前只支持主图评测试用。

若没有评测工具支持，一般就在excel中进行操作。

给出评测工具主要是反馈给需求方（即产品经理与工程师），告诉他们我们评测的方式，若有工具则提供工具地址给其查看，若没有工具则在附件加上我们正式数据梳理完成后的格式，做一个周知工作。

举例：主图颜色识别评测工具

[小二分享no.2]评测方案撰写

l 评测打分维度

打分维度也从试水数据中得出。

一般的打分维度都为good（好）,bad（差）两档。主图牛皮癣分类更细一些，分为good（好），fair1（轻微文字）,fair2（明显文字），bad(差)这样四档。而在kingso新词挖掘项目中，则用“最小语义单元”“复合词”“噪音词”“混淆词”等来对数据进行区分，具体的维度根据项目而有不同。在评测方案中需要写明评测的打分维度，并做举例说明，方便需求方理解。

举例：图像项目打分维度说明

[小二分享no.2]评测方案撰写