台海新闻网

还觉得智能是靠人工堆出来的?AI下半场,Testin云测要为数据正身

领导:数据,算法和计算能力是人工智能的三个基本要素。在资本的催化下,计算能力和算法都以“大跃进”的方式发展,但作为三大要素之一的数据一直站在聚光灯下。随着人工智能的商业化,基于数据的行业壁垒的创建已成为面对主要人工智能公司最重要但最容易被忽视的环节。

布伦达是一位26岁的单身母亲,住在非洲最大的贫民窟基贝拉,是世界上最贫穷的社区之一。每天早上,布伦达乘坐公共汽车前往内罗毕东部,并开始与她的1000多名同事一起工作,每天工作8小时。

她的主要工作是简单和机械:上传一张照片,然后用鼠标人,车辆,交通标志,道路标记,甚至天空机械地标记图片上的所有物体。在这里工作八小时可以得到9美元,这对当地人来说是相当可观的收入。

img_pic_1563864033_0.jpeg

布兰达可以轻松控制鼠标,经过几个小时的培训,她已成为全球数百名同事中最重要的环节之一。

在人工智能开发的早期,人工智能供应商利用他们的廉价劳动力来满足他们的数据标签需求。布兰达和她的同事都是这样的劳动力,是人工智能背后的“人为”。

随着人工智能的发展,这种“粗糙”的标记方法正在逐步被淘汰。

从吃糠菜到山珍海威,人工智能变成了一个挑剔的老妇人

作为人工智能发展的最基本三要素,数据,算法和计算能力三要素相互制约,相互促进。互联网的诞生,数据突然爆发,提升了计算能力,推动了算法的进步。近年来,在反网络(GAN)和许多数据采集设备等技术的应用中,用于训练的数据可以多次重复使用,并且具有更多维数据的算法训练正成为趋势。数据需求已经从最初追求“数量”转变为追求“质量”。

随着人工智能商业化的加速,辅助驾驶和客户服务机器人等应用已经开始普及。从理论上登陆,人工智能正在逐渐进入普通人的家中。人们对AI能力的要求,以及实际使用中的产品稳定性和安全要求正在逐步提高。

安全性和稳定性的提高实际上推动了注释数据的准确性,这对数据准确性有更高的要求。过去以“95%”数据精度“馈送”的人工智能开始需要更准确的数据“馈送”,追求超高精度的训练数据已成为人工智能着陆的必要因素。

如果先前算法使用的一般数据集是粗粒度,那么该算法现在需要定制的营养餐。如果企业要进一步提高模型落地的能力,就必须逐步摆脱原有的一般数据集和互联网数据,积极参与定制数据收集,制造数据障碍。

数据收集到深水区域:定制数据收集成为数据采集水平的必要部分

众包和定制收购是数据收集行业的两种常见模式。

众包模式的优势主要体现在样本的丰富性和多样性上,但对于当前的AI数据服务业务,通过众包模式解决所有数据采集需求是不现实的。

首先,数据的安全性难以解决:平台用户提供的图片可能无法合法授权,平台难以判断用户提供的数据来源。

此外,在涉及定制需求的收集任务中,特别是在更复杂的任务中,从众包用户收集的数据往往不能令人满意,这反过来又增加了审计的成本。

更不用说某些集合需要在特定场景中进行,这是危险的(例如在辅助驾驶中收集驾驶员行为)。像这样的收集任务不仅可以通过众包获得结果,还可以增加收集用户。的风险。

img_pic_1563864033_1.png

图:智能驾驶21区域定点识别采集

作为AI数据服务行业中唯一的独角兽公司,Testin Cloud Test非常关注此问题。最初,只有一些AI公司发现了Testin云测试,并希望通过Testin Cloud的测试平台进行数据收集。然而,随着AI企业数据需求的不断发展,Testin Cloud Testing开始通过自建的数据场景实验室和数据标签库建立专业的定制收集和高质量的标签团队,以帮助AI公司获得更多的质量。场景数据。

场景实验室:使用稳定的采样样本深入挖掘实际数据需求

“Scene Labs是Testin高度定制化的多模式AI数据服务的重要组成部分,它使得Testin的云交付功能能够与客户需求并行,甚至可以满足客户的需求。”Testin Cloud测试副总裁贾宇航说。

领先的需求“一点点”不仅需要强大的技术能力和构建能力,还需要对应用场景有深入的了解。

不仅如此,玻璃眩光,模型面遮挡率等都有严格的要求。 “

对于这样的定制收集要求,现场施工非常繁琐,但仍然很难谈。但是,AI数据服务提供商不应该只帮助客户构建方案,而应该帮助客户找到最需要的数据。在这个项目中,玻璃的反射程度不仅与玻璃的材料厚度有关,而且与一系列变量有关,例如光源的大小,光源与玻璃之间的角度和距离。 Testin Cloud终于建成了近3000平方米的场景来完成数据采集。

img_pic_1563864034_2.jpeg

“只有了解情景并深入了解客户的需求,才有可能提供客户真正需要的数据。缺乏把握客户真正需求的能力将给我们带来巨大的风险,“贾宇航总结道。

面对越来越多的自定义AI数据要求,仅具备构建场景的能力是不够的。没有稳定的样本储备,建立一个精湛的场景的能力也是空谈。

贾宇航给了我们一个非常简单的面部表情收集的例子:“收集面部表情是一件简单而困难的事情。简单的事情是人群样本不难发现,但难点在于切换到相机。不同的表达方式并不简单,很少有人可以准确地表达各种表达方式。例如,在没有外界刺激的情况下,人类难以表现出“痛苦”的表达。对于这样的需求,我们需要一个更专业,更协作的人群样本。场景实验室的第二个重要优势是能够匹配稳定的人群样本。我们刚刚提到的“表达集合”项目最终由浙江横店的演员表演。小组完成了。“

虽然所选人口在性别,年龄,种族等方面的丰富性非常重要,但面对越来越多的精细着陆场景,人群样本的适应性也需要相应提高。如果考虑长尾场景,即使是一些需要专业人士来参加收藏,例如演员,残疾人等等。

根据谁的面孔,或从以前的“表达的承认”到“承认真实的表达”的鉴定。我们总能感觉到人工智能正在日益分割的领域中发展。

数据标签准确度要求从95%增加到99%+

为了实现该算法,AI企业不仅需要定制数据采集来获取长尾场景的数据,还需要进一步提高标签数据的准确性。正如AI工程师的座右铭“垃圾输入,垃圾输出”所描述的那样,模型精度要求的提高正在进一步提高输入数据的质量。

贾宇航向我们解释说,“为了完成数据质量的飞跃,我们选择建立自己的数据标注基础和系统化过程。”

与场景实验室的布局类似,Testin Cloud还在全国范围内建立了数据注释基础。在这里,Testin Cloud的技术和项目管理功能可以快速转化为特定数据标签业务的生产力。

贾宇航接着说:“为了应对日益专业的标签任务,自建数据库可以大大提高数据标签的效率。在我们的标签平台上,标签人员使用统一的工具来比较数据。标准化的工作流程。即使在一些复杂的任务上,标签甚至可以实现多人协作标签。在无形的层面,技术可以帮助我们快速深入地了解客户需求并降低沟通成本。“

这项技术能力也渗透到了Testin Cloud的流程管理中。标签云平台通过标准化测试,将标记的数据随机插入贴标机的标签工作中,实时掌握贴标人员的需求,减轻质量检测环节的压力,补充云平台本身。质量检测功能可以更有效地保证数据的高质量输出。

img_pic_1563864034_3.jpeg

“在交通信息数据的标注操作中,每个图像数据包含几十个属性分类。基于平台的协作标签,标签团队可以分为几个标签组,并标记固定属性,这不仅提高了标签人员的效率,加上平台的标准化测试和辅助质量检测功能,还可以有效地筛选标记后标记错误和标签丢失的数据,从而确保高质量和高效的数据传输。“贾宇航说。

未来:更安全和个性化

人工智能正逐渐从一些抽象概念转变为我们生活中的实际应用,但在阶段,人工智能数据的数量和质量的瓶颈将继续限制行业的发展。

对于当前人工智能产业的发展,贾宇航没有掩饰自己的担忧:“客户有一些属于甲方的索赔,但乙方仍然向不同的客户出售多份。我们做的第一件事是严格控制数据。公司的隐私使数据成为企业的核心障碍,没有买卖这样的东西。同时,我们有一系列保护数据安全的方法,例如数据隔离和质量保证,可以在确保企业数据安全的同时继续进行。构建和优化您自己的数据收集和标签解决方案。“

尽管如此,贾宇航仍然对人工智能数据的未来充满信心:“我们相信过去的移动互联网应用程序和当前的AI应用程序只是一种应用程序,我们想做的是帮助客户制作应用程序更有价值。从一开始就了解需要使用更专业的AI数据服务来解决日益增加的定制需求,我们迈出了真正的人工智能之旅的第一步。“