数据的使用范围不同,数据治理本身不论是经济内涵还是技术内涵也不同。数据治理是指通过相关流程和技术,对数据进行管理、维护和深度开发,获得可以作为组织关键资产的高质量数据。

每个移动网络运营商(Mobile Network Operator,MNO)将移动通信系统中产生的数据按技术域隔离并单独存储,这些技术域包括无线接入网(Radio Access Network,RAN)、核心网(Core Network,CN)、传输网(Transport Network,TN)以及运行、管理和维护(Operation, Administration, and Maintenance,OA&M)等。不同网元、不同参与者拥有的数据不够公开透明,由此带来的数据孤岛是数据采集和共享中的主要瓶颈。

另一方面,大型OTT(Over-The-Top)业务公司在数据治理和变现策略方面(如数据存储、分析服务、API接口)积累的专业知识远远领先于电信领域公司。

6G系统的数据治理方案将为AI和感知业务提供有力支持,将催生新的业务方式和系统特性。

一 设计要点和原则

数据治理的范围远不止是传统的数据采集与存储。总体上,系统设计需要考虑四个方面,如图1所示。

▲图1 数据治理的设计要点

1. 数据可获得性和质量

数据可获得性和质量是AI能否在各行业中得到应用的最大挑战之一。提高数据的可获得性,意味着数据不能仅仅来自单个系统、单个领域,而需要同时来自多个系统的不同领域。这就提出了一个根本问题:如何打破(多厂商、多运营商、多行业之间的)物理边界,让数据进入异构数据海洋?

一旦收集并利用了原本分散且相互隔离的数据,另一个问题随之而来:如何提高数据的质量?海量数据的获取,并不意味着获取的数据是可用的、高质量的。同时,在考虑降低数据处理计算复杂度和能耗的同时,还需要提高数据处理效率。

2. 数据主权

随着社会的全数字化转型,数据主权、数据安全和隐私的重要性空前突出,很多国家都制定了隐私保护的法律法规。服务提供商也在不断更新它们的隐私保护方案,主要国家政府也正在制定或已发布了数据管理相关的规定。

例如,欧盟2018年颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)就从欧盟层面上规范了数据的使用。2019年,中国颁布了《数据安全管理办法》,与2016年颁布的《网络安全法》一起构成了中国版的GDPR。美国也正在实施隐私相关的法律,例如加州的《消费者隐私保护法》(Consumer Privacy Act)已于2020年1月正式生效。

如何充分挖掘数据的内在价值,为各种业务提供精确支撑的同时兼顾隐私保护,尊重数据主权,已成为近年来的热门话题。6G系统设计应当考虑到监管的不确定性,尤其是存在于不同地区之间的监管差异带来的不确定性。

3. 知识管理

一般来说,知识可以看作是经过处理后的具有特定用途或价值的数据,可以被不同技术和业务领域的物理实体或虚拟实体直接使用。

知识管理包括知识的生成、更新和开放。就知识的生成和更新来说,我们需要仔细把关数据的来源和质量,采取措施拦截不可靠甚至是恶意的数据源产生的低质量和有害数据。而将知识作为一种能力对外开放,则需要适合的平台和接口设计。

4. 法律问题

各种各样的传感器和其他技术可以实时产生数据,这让数据收集和使用越来越复杂和敏感。数据生成能力的提升不仅提供了新的数据流和内容类型,同时也引发了政策和法律对数据滥用的关注:别有用心的机构或政府可能利用这些能力达到社会控制的目的。

同时,新技术能力也让普通人难以分辨技术内容的真假。比如,普通人就很难区分一段真实视频和一段“深度伪造”(deep fake)的视频。维

护技术的社会利益和防止技术能力被用于实施社会控制、剥夺自由之间存在一种脆弱的平衡,如何保护这一平衡,变得愈发重要。为了识别欺诈行为、防止先进技术被滥用,需要更严格的法律和政策手段。

二 架构特点

独立的数据面是数据治理系统设计中的关键特性(如图2所示),它将为6G系统提供数据相关的通用能力,从而为6G系统内部和外部功能提供透明、高效、内生安全和隐私保护。下文将介绍基本概念和相关网络功能和业务。

▲图2 独立的数据面实现完整的数据治理

1. 独立数据面

独立数据面旨在实现6G系统的数据治理方案,它处理的数据来自不同业务实体。不论数据来自哪里,数据的整个生命周期都在这一平面完成处理,包括数据生成与收集、数据处理与分析、数据业务发放。

因此,独立的数据面可以为外部商业实体(如汽车、制造和医疗等垂直行业)提供数据服务,也可以为6G系统本身(如控制面、用户面和管理面)提供网络自动化和优化服务。网络运行相关的配置、状态、日志,以及用户个人数据、传感器数据、其他各方提供的数据都是收集的对象。

收集到的数据会形成丰富的数据资源,这些数据资源可以以分布式的形式被组织起来。为了防止直接将原始数据用于AI和感知等应用而导致的问题,原始数据在被使用之前通常需要预处理(如匿名化、数据格式再塑、去噪、转换、特征提取等)。

为确保数据完整、过程合规,数据处理过程中所涉及的政策(如地理限制、国家或地区隐私法规等规定),不论是否来自监管层面,都默认需要遵守。将数据传递至数据面时,还需要遵守数据合同中约定的数据使用权利和义务。数据脱敏是保护隐私的关键,数据面需要提供这一服务。

上述由数据面提供的所有服务,都由自包含的OA&M系统来运营管理。

数据面的另一重要功能是基于数据收集、处理和编排生成知识。为了协调来自不同数据源的数据的处理和传输,知识的生产也需要按照合同要求进行。

随着新的数据源、数据模型、数据主题被数据客户关注和使用,数据治理框架可以不断演进、不断充实。因此,数据治理框架的运营管理和框架的实时发展是可以并行的。

由于数据面是一个逻辑概念,所以可以通过集中式分层架构实现,也可以作为一种分布在边缘或深度边缘节点上的逻辑功能实现。接下来我们将探讨数据面的一些关键要素。

2. 数据治理的多方角色

数据治理生态系统包括两个维度的角色:从数据客户到数据提供者、从数据所有者到数据管理者。不同的角色可以由不同的业务实体担任。因此,6G中的数据治理是典型的多方参与场景,使用6G系统提供的数据或知识的数据客户、6G系统的数据提供者都可能参与其中。

6G可以有自己的数据治理框架,也可以在自身领域知识的基础上,与其他行业参与者一起构建数据治理框架。也就是说,数据治理框架可能存在不同的演进或发展路线。因此,不同业务实体之间在运营阶段如何确定数据权利非常重要,可以借助区块链等去中心化技术解决这一问题。

3. 数据资源

数据资源的内容非常丰富,包括结构化数据、非结构化数据、预处理数据、后处理数据、原始数据。从无线环境中高效收集数据(如移动性等用户行为数据和网络状态数据)是数据治理的前提。然后可以使用智能方法分析数据、将数据衍生的知识传输给内外部客户。因而有必要了解数据的来源。

▲图3 主要数据源类别

图3展示了6G系统中一些主要的数据源类别。

基础设施:基础设施即通信系统,包括RAN、TN和CN等各类物理和虚拟资源,以及云、边缘和深度边缘等计算资源。基础设施内部产生的数据包括计算资源信息、通信资源信息(如某一网络功能的状态)、感知信息(如来自RAN的感知信息),以及某些用户信息(如移动性信息、位置和相关上下文)。运营支撑系统(Operation Support System,OSS):这一层的数据包括所有OA&M相关的数据,如物理设备状态、系统运行信息、业务发放信息。业务支撑系统(Business Support System,BSS):这一层的数据包括所有与业务逻辑相关的数据,如客户信息、伙伴关系管理信息。更重要的还有消费者和企业客户的订阅数据,对于这些数据,他们应拥有完全所有权和控制权。行业通信系统:6G行业应用场景中,收集的数据可能还包括行业相关OA&M数据信息、行业用户信息(如流量规律和移动性数据)以及存储在云端的业务/服务数据。此类数据的所有权应完全属于行业客户。终端:来自终端侧的数据包括计算和通信资源、业务使用概况、感知知识等。此类数据的所有权应完全属于终端用户。4. 数据搜集

6G中,数据治理的一个主要作用就是提供合适的方法构建数据资源,这需要合适的架构和网络功能的支持,构建数据资源的第一步是收集数据,这一步有如下几个关键动作:

与数据源建立协议(如数据授权)和安全连接。接收数据收集需求,确定收集范围,根据需求确定收集的地点、时间和方式。将数据属性告知数据源。从数据源收集数据并入库。对数据库中的数据进行操作和维护。5. 数据分析

在管理数据资源的基础上,为不同类型客户提供数据分析服务便成为可能。有如下四种数据分析服务可以提供:

描述性分析挖掘历史数据的统计信息,提供网络洞察信息,如网络性能、流量模型、信道状况、用户等方面。诊断性分析可以实现网络故障和业务损伤自主检测,识别网络异常根因,从而提升网络可靠性和安全性。预测性分析利用数据来预测未来事件,如流量模式、用户位置、用户行为和偏好、资源可用性,甚至是故障。建议性分析基于预测性分析为资源分配、内容展示等提供建议。

数据面提供的知识来自数据分析服务,提供的知识包括主动知识(如行动建议)和被动知识(如信息共享和客户的行动决定)。

数据分析服务可以基于客户需要,并根据客户需求定制。数据面应按需多维度开放服务和数据,表1列举了可向客户提供的服务类型的示例。可以预见的是,实际的客户类型比表格中所列举的更丰富,客户对数据分析的需求和使用场景也各不相同。

▼表1 数据面提供的多维数据服务示例

6. 数据脱敏

收集和储存敏感数据,就涉及了隐私风险,需要承担隐私保护责任。数据脱敏是回应隐私关切、实现法律遵从的重要动作,对于在6G设计中支持AI和感知业务也尤为重要。

特别是对于AI任务,需要考虑跨领域的设计。近来有大量关于AI领域中差分隐私(differential privacy)的研究,探讨如何将单个设备的训练数据匿名化。

模型训练和AI推理过程中的数据脱敏在6G设计中必不可少。实现差分隐私的方法包括:在不影响数据统计属性的前提下为训练数据加入噪声,训练模型仍然可以捕捉到原始数据集的特征;使用加密技术,使机器学习基于加密的(而非解密的)数据进行。还有一种方法是,让设备发送模型参数,而不是训练数据,比如说联邦学习和拆分学习。

在这一过程中存在一个风险,如果有完全掌握学习方法的内部人员心怀不轨,那么他可以利用模型逐渐收敛的过程构造与训练数据类似的信息。例如在联邦学习中,信息可能因此被泄露给恶意设备。

不论何种学习方法,数据脱敏都是需要考虑的问题。因此,我们需要在这个前提下,思考如何处理不同学习方法之间的差异和学习方法自身的局限性。

关于作者:童文 博士,华为无线CTO,华为5G首席科学家,华为Fellow,IEEE Fellow,加拿大工程院院士,曾获IEEE通信学会杰出行业领袖奖、费森登奖章。朱佩英 博士,华为无线研究领域高级副总裁,华为Fellow,IEEE Fellow,加拿大工程院院士。

本文摘编自《6G无线通信新征程:跨越人联、物联,迈向万物智联》,经出版方授权发布。(ISBN:9787111688846)

标签: 数据治理