“深化数据资源开发利用研究”课题组
数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。党的二十届四中全会通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出,健全数据要素基础制度,建设开放共享安全的全国一体化数据市场,深化数据资源开发利用。2025年岁末召开的全国数据工作会议,将2026年确定为“数据要素价值释放年”,指出要锚定数字中国建设目标任务,扎实推动数据事业高质量发展。在数字经济已经成为发展新质生产力的重要引擎、全面赋能经济社会发展的新形势下,应充分发挥山西在数字标注产业具备的先发优势,构建数据标注产业发展新格局,激活数字经济新引擎。
锚定新蓝海:数据标注产业概况与发展形势
数据标注作为数字经济产业链的关键环节,是打造高质量数据集、驱动模型迭代的核心基石,已成为培育新质生产力、塑造数字经济竞争优势的重要支撑。在深入推进数字中国建设的大背景下,要抢占数字经济产业应用制高点,使人工智能全方位赋能千行百业,数据标注产业将发挥举足轻重的作用。
庐山真面——什么是数据标注产业?数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,是指对未经处理的原始数据添加说明、解释、分类或编码的过程,以便数据可以被人工智能算法所理解和使用。这一过程主要是通过人工或半自动的方式,针对特定的数据集进行标注,以形成具有特定格式的结构化数据。数据标注产业链则超越了单一的数据处理环节,是指以数据标注为核心的数据服务上中下游产业链,涵盖数据服务的全生命周期。数据标注产业是一种新兴产业,其特殊性在于,所有产业的智能化数字化发展,都离不开数据标注产业的加持,是人工智能得以赋能千行百业的基础产业。数据标注的类型包括文本标注、图像标注、语音标注、视频标注和3D点云标注等,精准赋予数据语义信息,对提升人工智能算法模型的准确性或泛化性起到关键作用。
大有可为——数据标注产业能做什么?数据标注作为数字经济的关键基础,堪称将数据“原油”炼成“汽油”的核心工艺。一是可为原始数据赋予语义和坐标,为人工智能提供数据基础支撑。数据标注对原始数据赋予“语义”和“坐标”,通过高质量的数据标注,为人工智能提供大量的高质量训练数据,使其能够更准确地解析人类语言、图像、视频和语音等信息,从而提升其在自然语言处理、计算机视觉、模式识别等不同领域的性能和应用效果,助力人工智能实现更为精准和高效的处理与决策。如果说算法是人工智能的“大脑”,算力是支撑其运转的“心脏”,那么高质量标注数据就是滋养其成长的“血液”和“养料”。从人脸识别到自动驾驶,从智慧医疗到工业质检,从政务服务到智能制造,任何先进人工智能模型的训练、迭代与优化,都离不开海量、精准、合规的数据标注工作。二是使海量数据资源从静态无序状态转变为可高效流通的动态资产。数据标注是连接数据资源、算法模型与实际应用场景的关键桥梁,能推动数据从“沉睡资源”转化为可高效流通的“生产要素”。从自动驾驶道路物体标注提升数据精准性,到医疗影像标注使数据市场价值倍增,标注不仅实现数据从“可用”到“好用”的升级,更推动其从潜在资源转化为可交易商业资产,使其从静态存储状态转变为高效流通、精确计算的动态资产。这一转换,直接撬动了“数据要素×”三年行动计划的加速落地,助力数据深度渗透实体经济。三是数据标注产业催生数据产业全链条协作。数据标注产业串联资源方、技术方与应用方,形成“数据采集—标注加工—模型训练—场景应用”的全链条协作体系。当前,以数据标注为代表的人工智能基础数据服务,连结上游数据来源方和下游人工智能算法研发方,并衍生出或辐射到更广阔产业领域,其带动的技术标准升级迭代、产业规范制定、人才培养培训、平台体系建设等配套产业发展,构建起完整价值网络,成为数字经济高质量发展的重要引擎。
蓄势待发——数据标注产业发展形势如何?2021年11月,《“十四五”大数据产业发展规划》出台,明确指出“围绕数据清洗、数据标注、数据分析、数据可视化等需求,加快大数据服务向专业化、工程化、平台化发展”,标志数据标注成为“构建稳定高效产业链”的重要一环。2024年4月,全国数据工作会议首次提出“探索建设国家级数据标注基地”,同年5月,国家数据局公布了首批7个国家级数据标注基地名单(四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市),着力推动产业集聚发展,形成央地协同的产业布局。2024年12月,国家发展改革委等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,指出“着力培育数据标注新业态,布局数字科技新赛道,构建产业国际竞争新优势”,并明确到2027年年均复合增长率超过20%的目标,标志着数据标注产业正式纳入国家战略产业布局。当前,数据标注产业在智能驾驶、医疗影像、低空经济、矿山巡检等领域日益实现深度赋能,高质量数据建设进入规模化、规范化发展新阶段。数据标注产业宏图待展、方兴未艾,成为新兴产业领域的一片生机勃勃、春潮涌动的新蓝海。
领跑新赛道:山西在数据标注产业领域的比较优势
山西是典型的资源型内陆省份,以数据标注产业为切入口,培育数字经济新优势,有助于突破传统发展路径依赖,实现要素结构重构与比较优势转化,推动形成新的数字经济增长点,为山西培育新质生产力、拓展竞争优势提供重要支撑和战略抓手。《山西省加快数据标注产业发展的实施意见》《关于促进数据标注产业高质量发展的若干措施》等一系列文件的制定出台,为数据标注产业发展提供了强有力的政策引导与支持。
战略先发优势。山西数据标注产业具备提前布局、较早发力、跻身国家队的先发优势。大同在2021年开始布局数据标注产业,并不断创新体制机制与运营模式,成为全省乃至全国发展数据标注产业的探路者与领跑者。2024年5月,国家数据局公布了首批7个国家级数据标注基地名单,山西大同位列其中,在国家数字经济布局中,获得国家层面的认可与早期入场资格,这是山西在该领域跻身国家第一梯队战略布局的关键标志,为山西率先跨入新赛道、启航新蓝海,赢得宝贵的窗口期,是山西以制度红利释放发展新动能闯出的一条新路。经过持续发展,大同已上线全国首个“数据标注云园区”平台,建成全国首所数据科技职业学院,数据标注规模达到1536TB,形成文旅、能源、文物、交通等领域高质量数据集361个,引进和培育包括抖音、京东、科大讯飞在内的70余家数据类企业,初步完成了从载体建设、数据生产到人才培养与企业集聚的闭环生态构建。2024年12月,大同市印发《大同市数据产业发展三年行动计划(2024年-2026年)》,计划通过“数标扩容”行动,以建设国家级数据标注基地为牵引,依托煤炭等优势行业构建特色数据集,加强校企协同培养标注人才,完善产业园区载体,推动数据标注产业向规模化、专业化、链条化发展。这将使大同成为全省数据标注产业发展的核心承载区,并为其在全国范围内形成示范效应奠定基础。
特色场景优势。区域产业发展应充分依托其独特的资源禀赋和既有特色优势。山西可以立足于其不可复制的区域资源,将传统产业领域的深厚积累转化为数字经济时代的差异化竞争优势。比如,深厚的能源工业基础构成了高价值工业数据来源。山西已建成智能化煤矿369座,占全国三分之一以上,在矿山安全监测、设备识别、井下作业行为分析等方面积蓄了大量真实生产数据,可直接转化为工业视觉和安全生产等高价值标注场景。再如,丰富的文物与文旅资源形成了独特文化数据资产。山西拥有不可移动文物5.3万余处、全国重点文物保护单位531处,为文物数字化保护、三维重建、智能导览以及文旅影像理解、非遗语音识别等提供了独一无二的多模态数据资源。此外,山西在装备制造、生物医药、新能源汽车等领域也显现出独特产业优势。这些特色场景共同构成了山西数据标注产业独特的行业赋能优势与价值纵深,为其在数字经济体系中确立差异化发展路径提供了重要支撑。
人才资源与成本优势。相较于传统资本密集型、技术密集型产业,数据标注产业具有门槛适中、就业带动强、产业易集聚等特征,有利于在较短周期内集聚项目和企业、扩大有效投资和就业。山西高等教育和职业教育体系较为完备,每年可稳定输送计算机、大数据等相关专业人才,能为数据标注产业一线标注人员和技术骨干提供充足而稳定的人力支撑。在要素成本价格方面,山西劳动力成本和办公用房租金等综合成本整体低于东部沿海和一线城市,有利于在保障用工规模的前提下,大幅降低数据标注企业的人力和运营成本,提升数据标注企业的可持续经营能力。此外,山西国有企业占比较高,大量国企退休职工普遍具备较强的专业技能和协作能力,且具有较高的再就业意愿,是发展数据标注产业可以重点吸纳和开发的重要人力资源。
算力与电力优势。算力与电力是发展数字经济的关键要素,其成本与供给效率在很大程度上决定了对数字产业的吸纳能力。在算力支撑方面,山西已建成规模庞大、能效领先的算力基础设施体系,全省算力中心机架规模达51.4万标准机架,能效水平位居全国前列,为智能标注工具研发、大规模数据处理和模型训练等业务活动提供了稳定算力基础。在电力供给方面,2025年新能源和清洁能源装机占比达到55.1%,绿电交易和外送规模持续位居全国前列,加之年均气温9.9℃的“天然冷却”优势,可显著降低数据中心能耗和用电成本,相较东部沿海地区在电价和能效上具有明显优势。这不仅降低了数据标注产业及其紧密关联的数据存储、模型训练等环节的直接成本,更在“双碳”目标下为数据标注产业及其上下游环节在本地集聚提供了较为有利的外部环境。
激活新引擎:以拓展区域特色场景提升行业赋能水平
数据标注产业作为人工智能发展的基石,越来越呈现出高技术含量、高知识密度、高价值应用的“三高”特征,且正从通用场景向各专业领域纵深发展。加快拓展特色场景、提升行业赋能水平,是构建产业差异化竞争力的根本出路。应充分发挥山西拥有丰富的能源、文旅、装备制造业等特色数据资源比较优势,不断提升“能源重镇、文化宝库、制造根基”的数据潜能,加快建立可信数据空间,及早布局,梯次推动数据标注产业从基础服务向高附加值、特色化升级,使山西成为全国人工智能高质量发展不可或缺的“数据粮仓”。
聚焦智慧矿山数据标注,打造工业数据新标杆。山西是国家重要能源原材料基地,煤矿智能化产业转型为数据标注产业提供了体量巨大、需求刚性且技术壁垒高的应用场景。山西煤炭工业互联网平台发布的《山西煤炭工业互联网平台高质量数据集清单》(版本U1),聚焦井工煤矿安全生产场景,涵盖1016个数据集及语料库,总量达28TB,覆盖采煤、掘进、主运、辅运、综合保障、综合管控、安全管控、生产经营8大类子系统,包含超800多项细分场景数据,可为行业AI模型训练需求提供多样选择,也可为山西数据标注产业提供更具区域特色的发展空间。山西数据标注产业应更多聚焦能源安全领域,努力成为全国能源领域人工智能赋能标杆。一是推动煤炭企业深化数据角色转型。加快从“数据拥有者”向“数据开发者”和“数据消费者”转变,构建“数据供给—模型训练—内部应用—产品优化—对外输出”的闭环。二是加快智能矿山专业数据集的规模化标注。将海量原始井下数据转化为AI可识别的信息,需要开展大规模精准标注。围绕皮带运输异物识别、人员违章行为检测、设备状态异常预警等场景进行视频与图像标注。系统采集采煤机、掘进机等关键设备的运行声音与振动频谱数据,训练故障早期预警的声学诊断模型。推进地质数据与三维点云数据精细化标注,为构建透明地质模型与数字孪生系统提供数据支撑。三是推动产业从“数据集”向“模型库”升级。聚焦“瓦斯涌出异常智能识别”“井下设备预测性维护”等重大课题,开展定向数据标注与联合模型训练,形成一批经过井下验证的专用AI模型库,将数据资产转化为保障安全、提升效率的核心技术产品。四是持续拓展能源数据体系。加快构建“露天煤矿”与“煤机装备”特色数据集,在现有数据基础上,补充露天矿智能巡检、无人矿卡调度等场景数据,以及高端煤机装备的深度工况与故障诊断数据,将推动产业服务从地下向地上延伸,从生产向装备制造环节拓展。
聚焦历史文化数据标注,开启文旅增值新空间。山西拥有全国数量最多、类型最全、保存体系最完整的地上文物资源,是构建差异化竞争力的独特数据富矿,需加快推动文物数据标注实现从简单数字化存档到可计算、可创作的“数据资产”跃迁。以云冈石窟为例,大同市利用云冈石窟“数据要素”资源,形成图片数据集354万张、音视频数据集1574个、档案数据集12182卷、文献数据集13183本、洞窟三维模型数据集4971.39GB,为考古研究、文物监测、保护修复、展示陈列等多领域提供数据支撑,“云冈石窟文物数据资源赋能文化遗产活化利用”入选第二批“国家数据局重点联系示范场景”清单。一是加快文物精细化标注发展,对关键文物的三维扫描数据进行超越常规的精细化标注,不仅标注文物轮廓,更对纹饰类型、雕刻技法、历史修复痕迹等进行结构化、语义化标注,形成“数字细胞”级的基础数据元件。二是构建可授权数据产品包,探索数据产品的版权授权、合作开发等市场化模式。面向文化遗产保护与研学,开发支持文物虚拟拆解、结构原理动画演示的深度标注产品;面向文创与数字消费市场,为游戏、影视、动漫、元宇宙企业提供高保真、可直接调用的文物数字模型与贴图数据服务,将山西古建、彩塑、壁画元素通过专业数据服务融入创作流程,实现从“资源授权”到“数据赋能”的模式升级。三是打造山西古建基因库。系统标注晋祠、应县木塔、晋商大院等山西代表性古建筑的建筑构件、彩绘图案、空间布局,为虚拟重建、风格化衍生设计提供核心数据支撑,赋能“元宇宙文旅”“数字文创”等新业态,建设“文物高清渲染与AR数据工场”,降低微短剧、互动展览等内容制作的成本与技术门槛。
聚焦装备制造业视觉数据标注,提升智能制造新高度。数据标注作为连接数据与智能的桥梁,是推动制造业向智能化、个性化跃升的关键技术。当前,山西在重型机械、轨道交通装备、特种材料等制造领域基础雄厚,已积累了海量生产数据,生产环节中存在大量基于视觉的质检、巡检以及工艺流程优化、供应链管理、产品研发等全流程需求,形成数据标注产业的增量市场。一是加快重点产业链数据标注发展。围绕“轨道交通、智能煤机、新能源汽车、风电装备”等高端装备产业链,支持链核企业与上下游协同开展关键工序的数据采集与标注,推动集群整体智能化水平提升。二是开展“工业视觉灯塔”数据标注示范。在智能制造方面,发挥太重集团等本地龙头企业,针对大型起重机、挖掘机、轨道交通轮对等关键零部件,开展缺陷自动检测的工业视觉标注。三是加快“多模态工业数据”标注发展。推动标注服务从静态图片向复杂场景延伸,针对装备运行,同步标注振动频谱、红外热成像、声音信号与视频画面,建立“异常工况多模态特征关联数据集”,用于训练更可靠的预测性维护模型。(执笔人:山西省社会科学院〈山西省人民政府发展研究中心〉刘晓哲、张艳梅、王中;山西大学赵圆庆)