“每当有人问起我的职业,我回答是数据标注师的时候,对方的脸上总是写满了问号。”李宇龙说。 李宇龙在人工智能基础数据产业基地从事数据标注工作已经5年了。他说,自己和许多同事目前最大的心愿就是,希望有一天大家提起数据标注师就像提起教师、医生一样熟悉,期待有越来越多的人了解这个行业。 省工信厅不久前印发的《山西省“十四五”大数据发展应用规划》中明确提出:我省将加快发展数据资源共享、人工智能算法模型研发、训练测试验证、产品服务应用等数据标注服务链条,推动“机器+人工”标注、机器智能标注等能力升级,打造完整的数据标注服务体系。李宇龙的心愿,有望在短期内实现。 数据标注,不仅仅是“标注” 什么是数据标注?简单来说,就是通过对数据贴标签、做记号、标颜色或划重点的方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。“数据标注是传统制造升级为智能制造、信息计算升级为人工智能的必要环节,其质量直接决定着机器智能化的程度,是它们让机器成为‘天才’。”省工信厅大数据办相关人士的解释很专业。 鲜为人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是经过大量的学习训练而成。机器并不能理解原始数据,这些原始数据需要人为的“标签化”,通过标注赋予这些数据能够被机器所识别的特性,才可以被用于训练。正是依据这些大量而有效的数据总结规律,机器和人工智能才能最终形成自己的工作模式,变得越来越“聪明”。 正因如此,人工智能行业有句话:有多少智能,背后就有多少人工。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。他们的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。 李宇龙虽然从未见过自动驾驶汽车,但他最近正在做的工作却与自动驾驶技术的AI算法息息相关。“你看,把汽车框起来,都打成白色的点,就代表这是一个障碍物。”随着李宇龙鼠标的快速滑动,屏幕上的点云图不断翻转,一个个针尖大的数据点被标注在图中不同物体上——蓝色是路面、绿色是绿植、红色是路沿、白色是障碍物。事实上,自动驾驶汽车眼中的世界就是一幅幅不断变幻的点云图。数据标注师要做的就是对照摄像头拍摄的照片,赋予这些点云图以准确的含义。 记者采访中了解到,现在数据标注的内容已经从图片拓展到语音,数据集中除了自动驾驶,还有医疗CT、人脸等,语音数据除了有普通话、各地方言外还有外语,这些数据集涵盖的范围越来越广,使得行业对数据标注师的要求也越来越高。 市场需求量将呈井喷式增长 众所周知,数据服务领域与人工智能的发展息息相关。通过每天数千次的重复动作,数据标注这项工作便和无人驾驶、人脸支付、智能家居、智慧医疗等前沿科技产生了紧密的联系。 记者了解到,目前,数据标注的技术门槛并不高,只要能熟练操作电脑,经过一定的培训就能上岗,招工人群较为广泛。
数据标注是传统制造升级为智能制造、信息计算升级为人工智能的必要环节
关注
打赏