行业高质量AI数据如何炼成 揭秘云测数据的取胜之法

文|叶元峰

来源|智能相对论(aixdlun)

在人工智能加速落地的背景下,人工智能数据标注作为人工智能产业落地的重要环节,越来越受到业界的重视,并正在发生巨大的变化。

前不久,在中国交易会上,数据标注领域的龙头企业首次发布标准,AI数据项最高交付准确率达到99.99%,创下行业新纪录。这方面有自媒体& ldquo响铃一次& rdquo评论认为AI数据标注已经被& ldquo劳动密集型。输入& ldquo技能密集型& rdquo时代。

在AI数据行业,数据精度=合格数量/总量,也就是说极高的精度既要满足一些客观标准,又要深入满足AI项目方的需求,基于需求通过验收流程。

【/s2/】其实对于AI数据来说,在很多地方和制造业差不多,创建更高精度的过程就像制造业& ldquo精益制造& rdquo同样,开发的方式也有很多种,除了一种交付数据服务,另一种生产物理产品。

这种契合,从行业内龙头企业的行动来看,包括四个方面。

【/s2/】业务平台:在线自动化出现在处理复杂AI数据交接和操作& ldquo管道& rdquo

制造业的精益制造是& ldquo管道& rdquo自动化和智能化的升级,更复杂的工具或机械的引入,为产品的精益抛光提供了生产环境基础。

数据标注类似,粗放式的业务平台越来越无法承担复杂的AI数据交接和运营。在这种背景下,在线自动化& ldquo管道& rdquo开始出现。

过去,& ldquo离线& rdquo痕迹比较厚,特别是数据导入导出、硬盘复制和交接& ldquo原始模式& rdquo不时出现。

为了提高效率和安全性,并在短时间内实现无缝对接,以云测量数据为代表的企业探索这条线& ldquo管道& rdquo商业平台模式。具体来说,根据AI企业自身的数据处理流程,嵌入标准化API接口,在线访问数据,作业完成后在线输出,中间有模板任务创建和责任安排,支持不同的标注类型和标注方式。

【/s2/】这个流程,对应的是制造业,实际上是& ldquo材料进入,在众多生产线中找到合适的一条,安排生产工人和产品产量。的过程。在线上,数据标注实现了数据录入、标注和交付在云中的无缝连接过程。

其中,数据标有& ldquo精益制造& rdquo最明显的价值可能是& ldquo生产工具& rdquo工具能力的优化和提高极大地提高了数据标注的效率和准确性,就像流水线上功能丰富的自动机械臂可以帮助企业大大提高效率和质量一样。

以云测量数据为代表的企业开发的工具为例,目前工具对数据标注的价值有这三种表现形式:

一是直接操作辅助,比如在26点、54点、96点、206点标记人脸的关键点,在3个像素内跟踪特定任务的关键点,使得标注器的操作更加精细,效率较好。

二、特殊数据的操作辅助。例如,激光雷达形成的三维点云数据与自动驾驶中相机形成的2D图像数据不同,因此标注时更困难,更容易出现偏差。此时,融合标注工具(将三维点云数据与2D图像数据相结合)的价值得以体现。

三是数据标注的纠错保证,类似& ldquo精益制造& rdquo在手动质检前的机器自动质检中,在数据标注过程中,工具根据AI项目的要求设置检错规则,以保证标注的准确性(比如将一个三米高的物体标注为人体是错误的)

当然,工具的质量检验只是一种辅助,而& ldquo精益制造& rdquo在这个过程中,手工质检(抽查)也是必要的。云测量数据不仅实现了标注过程的规范化、科学化,还设计了从创建任务、分配任务、标注流程的管理流程,完善了从质检/抽检到最终验收的管理流程。

【/s2/】数据操作:响应AI落地的深度需求,& ldquo数据技术& rdquo常规细化操作

生产过程是& ldquo精益制造& rdquo其中一个核心就是工艺越好,产品质量越高,市场话语权越高。in & ldquo;管道& rdquo在生产环境的基础上,随着AI落地需求的深入,AI数据标注开始出现,可以称为& ldquo数据技术& rdquo类似于精细化操作流程,99.99%的准确率为& ldquo数据技术& rdquo的结果。

在云测量数据的日常操作中,我们可以发现很多这样的& ldquo数据技术& rdquo常见实践,如更丰富的数据注释类型& ldquo细分市场& rdquo这个看似简单的标注对象也可以分为折线、曲线、贝塞尔曲线等等。

另外,就像制造业不断积累工艺经验,逐步提高工艺水平生产更高档的产品一样,数据标注中也有一个经验积累的过程来提高& ldquo数据技术& rdquo级别,比如大量行业内看起来相似的零件的标注,这样两个型号相似的螺丝就可以在更详细的级别上区分出来;零售业有很多类似的SKU,需要从品牌、标签等各种细化角度进行标注,帮助算法识别。

总的来说,对人工智能数据的复杂需求是推动数据标注向& ldquo数据技术& rdquo发展方向的直接原因。

目前的人工智能数据呈现出三个特点。第一,由于AI产品落地场景的复杂性,数据场景需求是多样化的,比如光强、拍摄角度、噪声要求、室内外等。;二是同类数据显示样本多样性,只有声音数据可能包含年龄、性别、口音差异;第三,同一应用目标的多维数据。比如智能驾驶可能需要摄像头、激光雷达、超声波雷达等不同传感器产生的数据。

显然,在这种背景下,AI开发前期的成品直接应用或购买& ldquo数据集& rdquo这些方法都不行,可以帮助算法快速成型,但是不能支持更多样的AI登陆需求。

so,& other数据技术& rdquo一般精细操作对数据标注的需求自然超出了纯数据标注的业务范围,需要整合上游数据采集的关键环节。【/s2/】可见,以云测量数据为代表的企业都在大力提高场景数据采集能力。帮助客户还原落地场景所需的AI数据,从源头上保证AI数据的质量,以便更好的应用于AI产业化的深度落地。

或许因为这个原因,可以看出云测量数据不仅公布了最高的99.99%的项目交付准确率,还帮助更多行业实现& ldquo人工智能产品将着陆得更快更好。云测数据结合自身服务能力积累和行业专业性,也推出& ldquo智能城市、智能家居、智能驾驶和智能金融四种场景;人工智能培训数据服务解决方案& rdquo。

在这些集数据采集和标注于一体的场景人工智能数据解决方案中,我们可以找到更明显的& ldquo数据技术& rdquo痕迹。

比如在室外场景中,摄像头包含了大量的行人、机动车、自行车等道路场景数据,但智能城市中的AI应用可能需要识别行人流量检测、突发事件等长尾场景数据。

在云数据测量的智慧城市解决方案中,通过行业首座数据场景实验室还原搭建真实场景,用于采集长尾场景数据,如各种不同灯光下的人员检测、危险动作检测等。

同样,还有智能驾驶场景。智能驾驶需要大量真实场景数据进行算法训练。为了保证行车安全,需要覆盖大量长尾场景数据,比如行人打伞,突发宠物等。疫情爆发后,还需要戴口罩的行人进行另一种外界环境感知& ldquo场景AI数据& rdquo。

在细节上满足更复杂、更深入的AI数据需求,提供独特、不可替代的AI数据采集能力,将有助于数据标注不断获得更高的产业地位。

【/s2/】人力建设:处理高精度、细节& ldquo数据技术& rdquo,专业& ldquo人工智能训练器& rdquo

& ldquo管道& rdquo后生产基地和更高的生产技术,& ldquo精益制造& rdquo考验的是工业工人实现过程的能力。在产业升级的浪潮下,产业工人的素质已经成为& ldquo精益制造& rdquo关键因素之一。

映射到数据标注,以应对高精度和细节& ldquo数据技术& rdquo,专业& ldquo人工智能训练器& rdquo开始出现,表现在三个方面。

第一,系统的人员培训,随着整体技能和专业知识,领域知识和人员素质的提高。

以云测量数据为例,云测量数据不仅提供岗前培训,还提供员工技能培训、职能培训、行业领域知识、责任培训、标注内容培训、一对一持续沟通,提升员工能力;同时配备了在线系统的评分系统,对员工的能力进行评估。

以前那种随便拖着一些人在大街上,学校里,只要会图片,会基本语法拼写就开始工作的数据标注方法,已经没有什么竞争力了。

第二是匹配不同的需求& ldquo人才梯队& rdquo开始出现。

这就好比& ldquo精益制造& rdquo像技术手段更高的工人一样,数据标注领域更复杂的产品在数据需求上有一定的差异,迫使企业培养一定的& ldquo人才梯队& rdquo。

典型的高度专业化领域,如医疗、法律、金融、家居等。,无论是CV还是NLP,人工智能训练者都需要非常专业才能对数据进行正确的标注和解读,这甚至不是单纯的训练可以解决的。云测量数据吸收了部分金融和家装行业NLP领域的专业人士,提升了相应领域的数据标注能力,也意味着数据标注行业开始对人才来源口径有所要求,不再是一个广义人群。

第三,大量的操作细节和专业性不断叠加。

产业工人成为& ldquo老大师;一方面来自苛刻的工作要求,另一方面来自专业经验的不断积累。数据标注也是如此。

在粗放式管理下,有一种传统的数据标注行业& ldquo混乱& rdquo国旗气质,曹太团队稀里糊涂的完成了大量的数据标注工作。但现在打着高精度的旗号,对数据服务团队的专业能力要求很严格。在云测量数据中,单个场景下智能客服的意向标注可以分为10-20个类别和数百个子类(表达相同的意向,算法面对的用户可能有不同的表达方式,细分越多越好),也可能根据业务需要有进一步的标注细分。

这就迫使数据标注者提高对对话意图的判断能力,需要以不同的描述方式对句子进行归纳、重组或扩展句型和标签(比如用户简单的口误或混合方言,数据需要标注清楚以便AI算法学习)。

在整体素质不断提升的基础上,人工智能培训师呈现出更多元化的梯度,更多高素质的贴标人才将脱颖而出。

【/s2/】需求互动:为满足深度项目需求,有深度互动的专业服务模式

最后,& ldquo精益制造& rdquo这一阶段的制造业往往伴随着订货方和生产者的深度沟通,需求方深入参与制造,从而生产出更符合初衷的产品。

这实际上是一种支持& ldquo精益制造& rdquoXML的专门化服务模式在数据标注领域也是一样的。为了明确AI数据标准,云测量数据作为一个追求高精度的企业,早就要求项目经理和AI项目方在项目启动前反复沟通需求,配合行业培训师对阅卷人员进行前期培训,并在阅卷操作过程中保持实时沟通和反馈。

这种反复沟通涉及到很多细节,影响最终数据结果的准确性。比如什么样的灯要标注定义为& ldquo强光& rdquo?不同的需求者可能有不同的理解。

除了数据标准的明确沟通,数据标注现在在操作模式上更加灵活。

通常在金融场景下,由于行业的特殊性,尤其是对数据安全性要求极高,数据标注企业除了要为金融行业与自身业务流程的深度融合提供一套AI数据服务解决方案外,在某些情况下还必须改变部署和运营的物理方式,比如云测量数据提供的私有化部署和现场运营服务。在这种服务模式下,数据标注& ldquo企业服务& rdquo一些更明显的性质。

值得强调的是,在数据隐私和安全方面,针对云数据设置了一系列严格的措施。核心原则之一是数据永远不会被重用。数据交付时,绝不会留下,相关数据会被销毁;二是所有用云测量数据采集数据的用户都会签订数据授权协议,从源头上保证企业用于培训的数据合法合规;同时,在云测量数据内部设置了数据隔离、质量保证等一系列数据安全流程和技术。[/s2/]

总之,AI的加速落地催生了更加复杂的AI数据需求,使得类似于制造业在流程中的AI数据标注也进入了行业本身& ldquo精益制造& rdquo过程中,在生产环境、运营标准、人才建设、服务模式等方面都发生了很大的变化。云测量数据带来的变革,不仅带来了更高的精度和更高质量的AI数据,也使得数据标注行业在AI时代的产业链中扮演着越来越突出的角色。数据标注就像信息世界中的一个新基础设施。只有基石建稳了,AI行业的高层才能崛起,加速人工智能的到来。

本内容来自智能相对论。

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘录、复制或创建镜像。

部分图片来源于互联网,版权归属未经核实,不用于商业用途。如有侵权,请联系我们。

智能相对论(微信ID:aixdlun):

& bullAI行业新媒体;

& bull今日头条青云计划赢家TOP10

& bull《造纸技术》月度排行榜前5名;

& bull长期文章& ldquo占领& rdquo钛媒热门文章排行榜前10名;

& bull他是《人工智能的十万个为什么》的作者

& bull【重点领域】智能家电(包括白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者及其背后的芯片和算法。

为您推荐

发表评论

电子邮件地址不会被公开。