印度的数据贴标机如何为全球AI竞赛提供动力

引用于factordaily,Kumaramputhur是一个小村庄,位于喀拉拉邦Palakkad西北45公里处,是大约3,500个家庭的家园,可能不比班加罗尔平均郊区大。它没有主要的行业可言。它的性别比例和识字率低于该州的国家数量。除了一些现代性的条纹,Kumaramputhur的任何一点都不值得注意。

在这个村庄里,Mujeeb Kolasseri是一名高中辍学生,拥有一支由200多名员工组成的团队,为美国,欧洲,澳大利亚和亚洲的客户提供人工智能解决方案。28岁时,Kolasseri是Infolks最年长的成员,这是他三年前创立的公司。

从连接Palakkad和Kozhikode的高速公路上的一个不起眼的办公室,大部分团队致力于突出显示和标记固定在自动驾驶车辆上的摄像机捕获的车辆,交通信号灯,道路标志和行人的图像。这项工作更加艰难的方面是精确标记由遥感器LIDAR(光探测和测距)捕获的数据,这些数据为自动驾驶汽车创建3D地图,以获得对周围物体的认识。

Infolks位于喀拉拉邦Kumaramputhur的办公楼

距离加尔各答西南边缘Metiabruz的Hooghly河岸约2000公里处,约200名妇女正在标记图像,用于训练自动驾驶车辆和增强现实系统中的算法。

“他们致力于我们最前沿的一些与图像相关的项目,”iMerit技术与营销副总裁Jai Natarajan说道,iMerit是一家位于印度和美国的数据注释公司,也就是说其员工参与其中。标记和准备数据以训练AI算法。

iMerit在加尔各答,兰契,布巴内斯瓦尔,Vizag和西隆的其他办事处的数千名工作人员也做了类似的工作,标记了数百万的数据,以帮助培训和驱动全球公司开发的AI算法。

随着全球企业巨头们采用人工智能,以及为人工智能算法提供支持的数据集日益成为专有技术,公司需要在数据标签团队的需求,质量控制,反馈和可交付成果方面更高程度地参与其中。

由于世纪之交的业务流程外包热潮,印度人对这种术语和要求并不陌生。数据注释和标签也是由流程驱动的,需要精确的工作和技能,即使是接受过高中教育的人也可以接受培训。

iMerit创始人兼首席执行官Radha Basu在Metiabruz中心
iMerit创始人兼首席执行官Radha Basu在Metiabruz中心

由于第一代主要是众包的工作让位于更高级的要求,Infolks,iMerit和Playment等公司迎合了全球客户的需求,使印度成为数据标签和注释工作的新兴中心。

“这是一个新兴的行业……在印度,每个人都开始意识到它所带来的巨大机遇,”印度科技行业机构Nasscom的高级副总裁兼首席战略官Sangeeta Gupta说。“AI需要适当注释,分类和匿名的数据。对于这一点,无论你喜不喜欢,你都会使用自动化,但你也必须使用熟练的人力资源,这就是它为印度带来的机会。“

根据研究公司Cognilytica的一份报告,到2023年底,人工智能和机器学习相关数据准备解决方案的全球市场预计将达到12亿美元,而2018年约为5亿美元。

什么是数据标签?

数据标记和注释是一个过程,通过这个过程,来自非结构化来源(如摄像机,传感器,电子邮件和社交媒体等)以及数据库等结构化来源的数据集将被标记,标记,着色或突出显示,以标记差异,相似之处或类型。这样,当数据被输入用于训练AI系统的算法时,该算法可以正确地识别数据并从中学习。

假设您想训练算法以使用车辆上的摄像头捕获的图像来理解道路标志。数据注释器或贴标签器将遍历图像数据集,并使用注释工具标记或突出显示道路标志,并将其提供给AI算法以供学习。下次算法在通过某个区域进行实时驾驶时遇到道路标志时,它应该能够识别该标志。算法训练的道路标志图像越多,其准确性越高。

Infolks的创始人兼首席执行官Mujeeb Kolasseri
Infolks的创始人兼首席执行官Mujeeb Kolasseri

推动人工智能或机器学习的激增是可以从互联网,社交媒体,传感器和其他来源获得丰富的数据。今天的算法能够吸收更多数据,因此更加准确。只要数据良好且干净,向算法提供另外数百万个数据集将会提高其准确性。这导致了对AI算法和应用程序的注释和标记数据的无休止的渴望。

根据Cognilytica 报告,今天,数据准备和工程任务占大多数人工智能和机器学习项目所涉及时间的80%以上。

“如果你谈论自动驾驶,一小时的视频数据可以带来长达800个工时的工作,”总部位于班加罗尔和旧金山的Playment首席执行官Siddharth Mall表示,该公司主要在自动驾驶汽车领域工作。

信息之旅

高中毕业后,Kolasseri在铝加工行业工作,但由于健康原因不得不离开。在国内,他报名参加亚马逊的众包工作市场,名为Mechanical Turk(MTurk),并开始从全球各地的公司获取注释工作。

“由于我能够提供的质量,我能够维持99.8的评级。我工作过的公司之一喜欢我的工作并直接找我并为我提供了更多的工作,“Kolasseri说,然后他建立了一个由六人组成的团队来完成工作。“我们最初是在家里工作,2016年初,随着我们的成长,我决定注册并成立公司。”

自助式操作最初建立在Kolasseri的兄弟和朋友的投资25,000卢比上,他帮助建立了公司并随后加入了董事会。如今,Infolks是一支不断壮大的团队,其大部分员工来自Kumaramputhur及其周边地区。

“该公司的愿景是将我们的村庄改造成全球村庄,并为农村地区的年轻人提供经济机会,”Kolasseri说。关于“近200人中有90%的人在20到25年之间。”

Kolasseri与位于Kumaramputhur的Infolks办公室的团队进行互动
Kolasseri与位于Kumaramputhur的Infolks办公室的团队进行互动

虽然该团队致力于医疗保健,机器人和农业等领域的数据集,但他们大约75%的工作都在自动驾驶汽车领域。客户包括德国汽车公司戴姆勒和其他国际技术公司,Kolasseri无法透露与他们签署的协议。

对于注释,如果客户端没有注释,公司将使用客户端提供的工具或第三方工具。“我们的研发团队正在开发自己的注释工具。它目前正在接受测试,并将在未来几周推出,“Kolasseri说。Infolks还在Kozhikode区附近的科技园内设立了另一个办公室。Kolasseri希望这将增加公司的收入,因为新地点属于特殊经济区或税收区,并有助于扩大其全球客户群。

印度的AI后台办事处

亚马逊的MTurk曾经是印度一个受欢迎的平台,用于在开始限制非美国工人之前找到数据标签和注释工作。虽然它后来取消了限制,但随着企业客户开始更加重视数据安全性,MTurk在数据贴标机中的受欢迎程度逐渐降低。此外,新的众包平台,包括Spare5Cloudfactory图八,更加注重注释和标签市场,已进入市场。

“我在2015年至2016年期间在Mturk平台上工作,然后启动公司,但今天还有其他平台即将推出众包工作,”Kolasseri说。“但是,由于企业客户非常关注数据安全性,特别是考虑到许多数据集都是专有的,因此在这些平台上信任工作人员对他们来说是一个更大的挑战。”

由前Flipkart员工Mall,Ajinkya Malasane和Akshay Kumar Lal创立的Playment以一种稍微不同的方式接近注释和标签行业。

该公司已经为各种用例开发了一系列注释工具,以及使用这些工具培训的贴标机和注释器的众包平台。该公司直接与客户或与客户有数据注释或标签要求的IT服务公司合作。

“要将原始数据转换为带注释的结构化数据,您需要使用前端注释工具,熟练且经济高效的人力资源,并且由于需要处理大量数据,您需要拥有正确的中间件来支持不同的工作流程并管理购物中心说,远程劳动力。

Playment的众包平台拥有超过300,000个注释器和贴标机。其中,该公司认为约有25,000名是“技术高超的顶级玩家”,根据Mall的说法,他们几乎整天都在这个平台上度过,平均每个月可以赚到2万卢比到3万卢比。

游戏也得到了国际客户的大部分工作,其中包括三星,滴滴出行科技,阿里巴巴,Drive.ai和大陆集团。这些作品的主要部分是自动驾驶汽车领域。

iMerit的战略以员工为中心。其2000名员工中约有80%来自每月收入低于100美元(7,000卢比)的家庭; 其中大约一半是女性。“我们的社会使命是在贫困社区和公司或行业较少的地区创造技术就业机会。Natarajan说:“我们在技术上略显鲜为人知的城市经营,而且技术就业较少。”

所谓的利他主义也具有良好的商业意识。“我们合作的人和我们工作的地方使我们能够以极具成本效益的方式扩大数据注释和标签团队,并为我们的客户提供高质量的工作,”Natarajan说。

尽管iMerit从美国获得了大部分业务 – 客户包括微软,eBay和Tripadvisor–其大约90%的数据注释和标签工作都是在印度之外进行的。

注释中的自动化

公司开始开发用于注释的自动化工具,但是由于许多工作需要细微差别和自定义注释或标签工作,所以在自动化工具达到高精度之前还需要一段时间。

Natarajan说,与五年前人工智能将猫与狗区别开来不同,今天的AI处理更高级的工作。“机器学习已经向前发展,所以没有人要求我们标记一只狗与猫。那些日子已经一去不回。今天,每家公司都有定制的需求和非常细微的要求,因此无法实现自动化或自动抛出数据并由匿名人员标记。”

JM Natarajan,iMerit技术和营销副总裁
JM Natarajan,iMerit技术和营销副总裁

他说,不可避免的基于AI的自动注释工具的出现并不构成威胁。“自动注释工具本身就是良好注释的结果,已经对它们进行了培训。当你试图解决一个问题时,这些工具只能达到一定的水平,但要超越你需要你的自定义注释,“Natarajan说。

但这可能只有在自动化工具变得足够有效以创建良好的数据集之后。“在更长的计划中,我们确实认识到我们正在使我们的项目过时。当我们的客户成功时,我们的项目就会结束,因为人工智能已经把它拿起来,“Natarajan说。“但我们也发现,它永远不是100%,它始终是一个持续不断的学习和改进过程。此外,客户将转向下一个问题,并将从零开始再次工作。“

换句话说,印度数据标签和注释公司尚未达到顶峰,可能需要很长一段时间才能进入BPO行业。

Share it!