试剂盒
贝博官方入口-试剂盒

数据标注行业割裂的2024年重启的2025年

发布日期: 2025-01-04 13:54:40 来源:生化试剂盒



  截至 2024 年 1 月 21 日,在短短一个月内,江苏、四川、内蒙古、上海、云南、青海、河北、湖南、广东、天津、福建等 11 个省级数据局纷纷成立

  首次全国数据工作会议于4月1日到2日在北京召开。国家数据局方面最新透露,接下来,将开展数据标注基地试点。

  2024 年 5 月 9 日,由国家数据局主办的 2024 年 “数据要素 ×” 大赛在安徽合肥正式拉开序幕,大赛主题为 “数据赋能 乘数而上”。

  5月24日,国家数据局党组书记、局长刘烈宏在第七届数字中国峰会主论坛上发布了承担数据标注基地建设任务的城市名单:四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市。

  国家数据标准体系建设指南印发,10 月 9 日,国家发展改革委、国家数据局等六部门联合印发该指南,指导数据领域标准的制修订和协调配套制订的建设指南,计划到 2026 年底基本建成国家数据标准体系。

  10月22日由中国AI产业发展联盟、中国信息通信研究院人工智能研究所和中国电信集团数据发展中心联合举办的首届“数据标注产业大会暨供需对接会”在北京顺利召开。

  ”(以下简称“分委会”)。分委会旨在搭建数据标注领域产学研用协同发展的平台,提升我国数据标注产业的技术水平、行业能力和国际竞争力,助力人工智能产业创新发展。分委会围绕设技术创新、行业赋能、生态培育、标准应用、人才就业等工作目标,拟设立

  技术创新工作组、人才教育培训工作组、平台运营工作组、地方政府专项组、央国企专项组

  四川省成都市:成都数据标注基地牧山园区成为首届数据标注产业大会达成合作最多的标注基地,拿下7项合作,包括与中国电信达成的高质量数据集智能标注基地项目。

  辽宁省沈阳市:皇姑区数据标注基地,与百度等有突出贡献的公司共建数据标注实训基地。

  安徽省合肥市:华南城集团、百度集团、数商云集和绿海商务学院在合肥完成了百度智能云(合肥)人工智能基础数据基地的战略合作框架协议签订。

  湖南省长沙市:构建了“1个综合标注基地+N个行业标注基地”的产业布局,长沙信息产业园被授予“综合数据标

  注基地”;马栏山视频文创园被授予“视频文创数据标注基地”;长沙天心经济开发区获批“地理信息数据标注基地”。

  百度智能云(海口)人工智能基础数据产业基地总建设规模达11400平方米,入驻本地数据标注企业9家,现场从业人员达1000余人,基地年产值有望突破5000万元。此外,海南长光卫星信息技术有限公司的“航天大数据标注基地”落地海口,将依托“吉林一号”开展航天大数据标注业务。

  河北省保定市:中国电子商会共同打造北方数据服务产业基地、中国移动梧桐大数据标注基地落地保定。

  省大同市:已培育、引入基础数据服务企业52家,建成7大职场,引进了京东物流、京东科技、上海证据等数据呼叫、数据标注企业59家。

  可以说2024年的数据标注行业无疑是标注行业最热闹的一年,行业得到了空前关注,但也正如标题所说,2024年是标注行业最为割裂的一年。从以下几个方面,详细讨论一下。

  随着大模型的火爆,数据标注的需求也随即改变了很多,比如在大模型出来之前,最多的就是图像标注,其次是音频标注,然后才是文本标注,然后是视频标注和一些垂直领域的标注。

  而大模型火了之后,最多最稳定的依然是图像标注(无人驾驶相关的图像标注),其次就是大模型的标注以文本类大模型和视频类大模型标注为主,而音频标注基本很少了,有也是小语种或者方言的标注了。

  很多媒体就开始说数据标注在从劳动密集型向知识密集型发展,好像要急于去说明或者摆脱什么一样。非要包装一下才会听起来更舒服一些?

  数据标注核心就是把非结构化数据通过打标签的方式变成结构化数据的处理过程。而在大模型之前的标注,都是对非结构化的结果进行打标签。而大模型的标注,不仅要对结果进行结构化,更重要的是要对推理过程进行结构化的处理过程。

  数据标注行业的本质是通过工程化的方式来解决这一处理过程,工程化核心要解决三大问题,数据处理全流程的安全、数据处理全流程的效率、数据处理后的质量。通过的手段可以是利用自动标注、辅助标注等等手段对每个环节进行优化。

  如果明白了这两点,就会发现这个跟是劳动密集型还是知识密集型没啥关系,所谓的密集只是数据标注行业现阶段的一种解决方案而已,其实也可以不密集。

  首届“数据标注产业大会暨供需对接会”的火爆程度超出了所有的意料,据说在劝退了三分之二人的情况下还是爆满的状态,里面外面都站了不少人。7个城市的领导现场办公,现场解读当地政策,现场招商。可谓是盛况空前。

  技术创新:突破多模态、智能化、人机协同等关键技术;研发一体化数据标注技术服务。

  标准应用:建立数据标注、数据集开发管理、质量评估、分级分类等标准规范;推进行业标准推广与应用。

  人才培养:明确大模型时代新模型数据标注产业人才需求;培养高素质、专业化、知识型数据标注人员。

  数据安全:建立数据标注安全管理规范;建立数据标注安全防护体系;建立数据标注安全预警体系。

  这次会议的主题虽然是数据标注产业大会,但没一家车厂或者无人驾驶相关的厂商作为专家代表发言。在地方需求对接也没看到厂商的身影。这是一个很有意思的事情。

  从今年标注业务来看,最多最稳定需求依然是无人驾驶相关的需求,其次是文本大模型的标注需求,再就是一些视频大模型、小语种方言类的需求,然后是一些数据集的采购需求。

  随着新闻媒体报道出来的需求持续不断的增加行业总产值在持续不断的增加,但标注企业却在快速减少,问题出在了哪?头部大厂的需求趋于稳定一级二级服务商大多数都搞定了?如果头部大厂的需求都趋于稳定了,那么所谓这么多增量又从何而来?又或许是大厂们不再压价格、压结算,产业双方找到了一个默契的平衡点了么?

  当然有些数据也无从验证,只是身为一个从业者的切身感受而已。如果有了解的从业者欢迎大家留言交流。

  从我这边来看2024年的数据服务业务大几十人,没赚到什么钱,但至少没有赔钱。当然肯定有很多人是赚到钱的。

  这两个方向做过的小伙伴应该是都懂的。冲动消费的时候,还是利润最高的时候啊。

  2025年作为数据标注行业规模化发展的第9个年头,也作为AI发展的重要环节之一,说没有机遇还是不可能的。但这个机遇也要分人分资源了。接下来就从以下几个方面去聊聊数据标注还有哪些机遇与风险。

  财经类:中文书籍、英文书籍、中文期刊、英文期刊、考试题目。围绕财务、会计、财务管理分析、审计、金融经济等。

  医疗类:电子病例(入院、出院记录、检查、影响报告等),医疗QA(轻问诊、单轮问诊、多轮问诊、健康、体检科普等)

  从目前来看国家级数据标注基地今年起步到2025年中下旬就满一年的时间了。作为很多地方数据局的第一个重大任务是必须要交作业拿成果的。所以也能够最终靠上面的落地情况可以看出来,每个地区有都绑定了几个厂商来获得一些起步阶段的业务。

  这就需要看资源的不同,能赚到哪部分的钱了。在不考虑难度的情况下,培训考证校企合作或许是最容易见钱的了,当然这部分一般都是地方资源比较好的能赚到。其次是标注基地需要采购的一些平台产品,这部分就是大厂的菜了。在就是地方奖励或者补贴一般是地方企业或者平台类的企业能把流水做的符合要求的能拿到。最后就是一些中小型公司来分食引入的真实的标注业务了。

  当然各个地方政府也不能让你白嫖,还是要有一些最起码对等的条件条件,要么是带业务要么是带税收要么促就业,目前的这7个城市对于促就业的需求都比较小。

  优势:无人驾驶标注目前是当之无愧的中流砥柱项目,虽然价格低但是相对于其他项目来说,数据需求较为稳定,目前客户基本都是车厂是直接需求方。无人驾驶产品也可以直接变现,不像其他AI产品变现路径还是长;而且无人驾驶是极其长尾需求,需要一直不断的去完善数据。

  风险:无人驾驶标注需求峰值已过,并且随着网络造成的暴雷,无人驾驶标注的需求必然会不断减少;从目前的市场表现来看,目前的供应商应该是能够完全满足,可能接下来就会裁撤现有的人员;如果要保持现有的人员体量那就需要再次压缩成本或者账期再次增加。

  优势:大模型对数据集的需求是巨大(具体需要标注的数据占整体数据集需要有多少是不确定的),大模型标注的价格还可以,结算相对于无人驾驶的结算会好一点。

  风险:大模型标注的特点是他们口中的长期业务,这个事是长期的,但是何时给数据,每次给数据多长时间是不确定的。

  总体来说,数据标注行业的确到了一个分水岭了,面对数据紧缺、技术发展的迷茫,现有行业内的小伙伴还有多少人是清晰的?面对行业发展的极大挑战,你有什么解决方案?标注行业如何在2025重启,推动中国人工智能、数字化的经济的发展,我们拭目以待!