【数据标注】如何运营一家数据标注公司(报价)
“数据标签市场中需求公司的特征。通过阅读《如何运营一家数据标签公司(学学帮项目总监访谈)》,应该已经有了清晰的认识。本文想分享的是,数据标注公司在与需求公司沟通合作时,应该如何进行更科学的报价….”
雪雪邦数字制造质检中心
(参考报价)
数据标签市场中需求公司的特征。通过阅读《如何运营一家数据标签公司》,应该会有一个清晰的认识。本文想分享的是数据标签公司在与需求公司沟通合作时,应该如何更科学的报价。
所有的行业报价都是以成本为基础的,因为数据标注者在数据标注公司的日常运营中所占的成本是最高的,人工自然成为数据标注公司运营中最大的成本因素。
同时,数据标签行业与其他劳动密集型行业也有一些不同。与工厂流水线上的工人不同,数据标注公司所连接的资源公司的需求是千变万化的,这就要求数据标注人员有开阔的视野和很强的理解能力;与从事单一重体力劳动的体力劳动不同,数据标注公司对接的资源公司对数据的质量和精度是否达到模型训练的预期有着非常高的要求,这就要求数据标注人员具有敏锐的观察能力、极强的耐心和细致的工作态度。
通过以上分析,我们可以清楚的了解到,人工是数据标注公司日常运营中最大的支出。既然人工是数据标签公司最大的开支,那么问题来了。应该从哪些方面进行科学合理的基于人工的报价?
因为员工每天的工作时间是固定的,从效率的角度出发,我们的报价需要从以下几个方面综合考虑。
数据
这里的数据是指资源合作伙伴提供的需要标注的各类数据。在根据数据进行成本估算时,我们最重要的是注意以下两点:
1.标记时间:这里的标记时间是指根据资源需求公司的标记方法对图片的特征进行标记,标记方法可以按照难易程度从简单到复杂进行排序。如下图:2D拉架多边形拉架
单级唯一标签:比如图中只需要标注人或车等唯一的元素属性,且只标注一个对象。
单层次多标签:比如图中需要标注人、车、动物等元素的属性,同时可以有多个(不超过10个)标注对象。
单级复杂标签:比如图中需要标注很多(10个以上)元素属性。
多层次的复杂标签:比如图中需要标注人、车等很多元素,需要标注车的种类、人的出行方向等等。
原地踏步的成本核算是基于以上两个重要因素。当然,难度越大,实际阅卷的时间就越长。
2.判断时间:这里的判断时间是指在实际标注之前,对相应标注元素的识别和判断。由于篇幅有限,这里不太介绍哪种判断更难。想了解的朋友可以继续关注觉醒矢量博客的更新。在这里,我只对影响判断的因素做一个大概的总结,包括:
被标记图片的清晰度:一般指图片中被标记的元素是否能被清晰识别。
标记元素的专业化程度:类似于金融相关专业知识的快速判断,医学图像中病变区域的标记,各种复杂地貌名称的标记。
标记元素的关联场景复杂度:这里的关联场景复杂度主要是指灯光场景(包括逆光、高亮等。)、重叠场景(多个标记元素相互重叠)和彩色场景(只有黑白)。
被标记元素的细化程度:这里的细化程度主要是指被标记元素与采集镜头形成角度时需要标记特定角度,被标记元素之间存在遮挡关系时需要标记遮挡百分比,被标记元素包含复杂颜色时需要区分复杂颜色等等。
判断时间的成本核算也是基于上面提到的几点。同样,越难判断,实际操作的时间就越长。
软件
这里的软件是指数据标注中的操作工具。基于软件进行成本估算时,我们最重要的是注意以下两点:
1.在操作方面,这里的指标表示实际贴标过程中,软件的运行环境是否流畅,操作功能是否方便。
2.统计上,这里的指标注软件表示实际标注的各种要素在标注后的分类统计是否足够准确,能否有效统计每个标注者的生产能力。
贴标软件在实际使用时,运行环境越流畅,功能越方便,单位时间的产量就会越高。同时,更强大的统计功能也可以大大降低大规模贴标人员的管理成本。
规则
这是指需求公司获取的相关标注规则。在根据规则进行成本估算时,我们最重要的是注意以下两点:
1.明确的规则。这里是指需求公司能够提供完整的规则和文件,从而保证在标注过程中需求边界清晰,标注人员不会在同一被标注元素某一方面的判断上陷入两难。同时,明确的规则又分为粗规则和细规则:
粗体规则主要是指需求方能够明确说明一般场景下的标注规则,但很多时候需求方并没有进行自检和相关标注,一些标注可能出现的特殊场景使得一般场景下的规则不适用。
细线法则主要是指需求方前期也花了很大的精力标注相关数据,同时对各种特殊场景做了详细的描述。
2.一般规则。这里指的是需求公司在准备开发一个产品的时候,会根据预期假设整理出一个通用的规则,需要数据标注来辅助需求公司在标注过程中不断完善相关规则。
规则是否清晰,直接决定了数据标注生产的连续性。当规则细化后,贴标会在实际贴标过程中走走停停,从而影响贴标效率。
连接
这里指的是报价前与需求公司的沟通。在进行基于沟通的成本估算时,我们按照沟通成本从低到高排序:
1.快速的沟通反馈(这里指的是在沟通的过程中可以随时和需求公司通话,说明需求公司有专门的负责人对接这个项目)。
2.反应良好(这里和需求公司沟通过程中会有时间延迟,一般不超过2小时,说明需求公司也有专门的负责人,但负责人可能同时负责几个不同的项目)
3.沟通反应差(此处与需求公司沟通延迟时间较长,通常超过6小时,说明需求公司可能没有专门负责人或者专门负责人的工作重心不在这个项目上)
4.沟通响应差(这里是在与需求公司沟通的过程中没有回复,说明需求公司大概率对项目的合作只有初步的想法,没有确定是否需要实施)。
良好的沟通是数据标签行业最重要的环节。良好的沟通可以省去很多重复、返工等低效行为。同样,沟通不畅也会大大增加数据标注公司在标注各个环节的成本。回到企业https://www.zhucesz.com/看到更多。