详解6G系统数据治理方案的设计要点和原则

2022-02-17 21:06:03 来源：大数据DT

数据的使用范围不同，数据治理本身不论是经济内涵还是技术内涵也不同。数据治理是指通过相关流程和技术，对数据进行管理、维护和深度开发，获得可以作为组织关键资产的高质量数据。

每个移动网络运营商(Mobile Network Operator，MNO)将移动通信系统中产生的数据按技术域隔离并单独存储，这些技术域包括无线接入网(Radio Access Network，RAN)、核心网(Core Network，CN)、传输网(Transport Network，TN)以及运行、管理和维护(Operation, Administration, and Maintenance，OA&M)等。不同网元、不同参与者拥有的数据不够公开透明，由此带来的数据孤岛是数据采集和共享中的主要瓶颈。

另一方面，大型OTT(Over-The-Top)业务公司在数据治理和变现策略方面(如数据存储、分析服务、API接口)积累的专业知识远远领先于电信领域公司。

6G系统的数据治理方案将为AI和感知业务提供有力支持，将催生新的业务方式和系统特性。

一设计要点和原则

数据治理的范围远不止是传统的数据采集与存储。总体上，系统设计需要考虑四个方面，如图1所示。

▲图1 数据治理的设计要点

1. 数据可获得性和质量

数据可获得性和质量是AI能否在各行业中得到应用的最大挑战之一。提高数据的可获得性，意味着数据不能仅仅来自单个系统、单个领域，而需要同时来自多个系统的不同领域。这就提出了一个根本问题：如何打破(多厂商、多运营商、多行业之间的)物理边界，让数据进入异构数据海洋?

一旦收集并利用了原本分散且相互隔离的数据，另一个问题随之而来：如何提高数据的质量?海量数据的获取，并不意味着获取的数据是可用的、高质量的。同时，在考虑降低数据处理计算复杂度和能耗的同时，还需要提高数据处理效率。

2. 数据主权

随着社会的全数字化转型，数据主权、数据安全和隐私的重要性空前突出，很多国家都制定了隐私保护的法律法规。服务提供商也在不断更新它们的隐私保护方案，主要国家政府也正在制定或已发布了数据管理相关的规定。

例如，欧盟2018年颁布的《通用数据保护条例》(General Data Protection Regulation，GDPR)就从欧盟层面上规范了数据的使用。2019年，中国颁布了《数据安全管理办法》，与2016年颁布的《网络安全法》一起构成了中国版的GDPR。美国也正在实施隐私相关的法律，例如加州的《消费者隐私保护法》(Consumer Privacy Act)已于2020年1月正式生效。

如何充分挖掘数据的内在价值，为各种业务提供精确支撑的同时兼顾隐私保护，尊重数据主权，已成为近年来的热门话题。6G系统设计应当考虑到监管的不确定性，尤其是存在于不同地区之间的监管差异带来的不确定性。

3. 知识管理

一般来说，知识可以看作是经过处理后的具有特定用途或价值的数据，可以被不同技术和业务领域的物理实体或虚拟实体直接使用。

知识管理包括知识的生成、更新和开放。就知识的生成和更新来说，我们需要仔细把关数据的来源和质量，采取措施拦截不可靠甚至是恶意的数据源产生的低质量和有害数据。而将知识作为一种能力对外开放，则需要适合的平台和接口设计。

4. 法律问题

各种各样的传感器和其他技术可以实时产生数据，这让数据收集和使用越来越复杂和敏感。数据生成能力的提升不仅提供了新的数据流和内容类型，同时也引发了政策和法律对数据滥用的关注：别有用心的机构或政府可能利用这些能力达到社会控制的目的。

同时，新技术能力也让普通人难以分辨技术内容的真假。比如，普通人就很难区分一段真实视频和一段“深度伪造”(deep fake)的视频。维

护技术的社会利益和防止技术能力被用于实施社会控制、剥夺自由之间存在一种脆弱的平衡，如何保护这一平衡，变得愈发重要。为了识别欺诈行为、防止先进技术被滥用，需要更严格的法律和政策手段。

二架构特点

独立的数据面是数据治理系统设计中的关键特性(如图2所示)，它将为6G系统提供数据相关的通用能力，从而为6G系统内部和外部功能提供透明、高效、内生安全和隐私保护。下文将介绍基本概念和相关网络功能和业务。

▲图2 独立的数据面实现完整的数据治理

1. 独立数据面

独立数据面旨在实现6G系统的数据治理方案，它处理的数据来自不同业务实体。不论数据来自哪里，数据的整个生命周期都在这一平面完成处理，包括数据生成与收集、数据处理与分析、数据业务发放。

因此，独立的数据面可以为外部商业实体(如汽车、制造和医疗等垂直行业)提供数据服务，也可以为6G系统本身(如控制面、用户面和管理面)提供网络自动化和优化服务。网络运行相关的配置、状态、日志，以及用户个人数据、传感器数据、其他各方提供的数据都是收集的对象。

收集到的数据会形成丰富的数据资源，这些数据资源可以以分布式的形式被组织起来。为了防止直接将原始数据用于AI和感知等应用而导致的问题，原始数据在被使用之前通常需要预处理(如匿名化、数据格式再塑、去噪、转换、特征提取等)。

为确保数据完整、过程合规，数据处理过程中所涉及的政策(如地理限制、国家或地区隐私法规等规定)，不论是否来自监管层面，都默认需要遵守。将数据传递至数据面时，还需要遵守数据合同中约定的数据使用权利和义务。数据脱敏是保护隐私的关键，数据面需要提供这一服务。

上述由数据面提供的所有服务，都由自包含的OA&M系统来运营管理。

数据面的另一重要功能是基于数据收集、处理和编排生成知识。为了协调来自不同数据源的数据的处理和传输，知识的生产也需要按照合同要求进行。

随着新的数据源、数据模型、数据主题被数据客户关注和使用，数据治理框架可以不断演进、不断充实。因此，数据治理框架的运营管理和框架的实时发展是可以并行的。

由于数据面是一个逻辑概念，所以可以通过集中式分层架构实现，也可以作为一种分布在边缘或深度边缘节点上的逻辑功能实现。接下来我们将探讨数据面的一些关键要素。

2. 数据治理的多方角色

数据治理生态系统包括两个维度的角色：从数据客户到数据提供者、从数据所有者到数据管理者。不同的角色可以由不同的业务实体担任。因此，6G中的数据治理是典型的多方参与场景，使用6G系统提供的数据或知识的数据客户、6G系统的数据提供者都可能参与其中。

6G可以有自己的数据治理框架，也可以在自身领域知识的基础上，与其他行业参与者一起构建数据治理框架。也就是说，数据治理框架可能存在不同的演进或发展路线。因此，不同业务实体之间在运营阶段如何确定数据权利非常重要，可以借助区块链等去中心化技术解决这一问题。

3. 数据资源

数据资源的内容非常丰富，包括结构化数据、非结构化数据、预处理数据、后处理数据、原始数据。从无线环境中高效收集数据(如移动性等用户行为数据和网络状态数据)是数据治理的前提。然后可以使用智能方法分析数据、将数据衍生的知识传输给内外部客户。因而有必要了解数据的来源。

▲图3 主要数据源类别

图3展示了6G系统中一些主要的数据源类别。

基础设施：基础设施即通信系统，包括RAN、TN和CN等各类物理和虚拟资源，以及云、边缘和深度边缘等计算资源。基础设施内部产生的数据包括计算资源信息、通信资源信息(如某一网络功能的状态)、感知信息(如来自RAN的感知信息)，以及某些用户信息(如移动性信息、位置和相关上下文)。运营支撑系统(Operation Support System，OSS)：这一层的数据包括所有OA&M相关的数据，如物理设备状态、系统运行信息、业务发放信息。业务支撑系统(Business Support System，BSS)：这一层的数据包括所有与业务逻辑相关的数据，如客户信息、伙伴关系管理信息。更重要的还有消费者和企业客户的订阅数据，对于这些数据，他们应拥有完全所有权和控制权。行业通信系统：6G行业应用场景中，收集的数据可能还包括行业相关OA&M数据信息、行业用户信息(如流量规律和移动性数据)以及存储在云端的业务/服务数据。此类数据的所有权应完全属于行业客户。终端：来自终端侧的数据包括计算和通信资源、业务使用概况、感知知识等。此类数据的所有权应完全属于终端用户。4. 数据搜集

6G中，数据治理的一个主要作用就是提供合适的方法构建数据资源，这需要合适的架构和网络功能的支持，构建数据资源的第一步是收集数据，这一步有如下几个关键动作：

与数据源建立协议(如数据授权)和安全连接。接收数据收集需求，确定收集范围，根据需求确定收集的地点、时间和方式。将数据属性告知数据源。从数据源收集数据并入库。对数据库中的数据进行操作和维护。5. 数据分析

在管理数据资源的基础上，为不同类型客户提供数据分析服务便成为可能。有如下四种数据分析服务可以提供：

描述性分析挖掘历史数据的统计信息，提供网络洞察信息，如网络性能、流量模型、信道状况、用户等方面。诊断性分析可以实现网络故障和业务损伤自主检测，识别网络异常根因，从而提升网络可靠性和安全性。预测性分析利用数据来预测未来事件，如流量模式、用户位置、用户行为和偏好、资源可用性，甚至是故障。建议性分析基于预测性分析为资源分配、内容展示等提供建议。

数据面提供的知识来自数据分析服务，提供的知识包括主动知识(如行动建议)和被动知识(如信息共享和客户的行动决定)。

数据分析服务可以基于客户需要，并根据客户需求定制。数据面应按需多维度开放服务和数据，表1列举了可向客户提供的服务类型的示例。可以预见的是，实际的客户类型比表格中所列举的更丰富，客户对数据分析的需求和使用场景也各不相同。

▼表1 数据面提供的多维数据服务示例

6. 数据脱敏

收集和储存敏感数据，就涉及了隐私风险，需要承担隐私保护责任。数据脱敏是回应隐私关切、实现法律遵从的重要动作，对于在6G设计中支持AI和感知业务也尤为重要。

特别是对于AI任务，需要考虑跨领域的设计。近来有大量关于AI领域中差分隐私(differential privacy)的研究，探讨如何将单个设备的训练数据匿名化。

模型训练和AI推理过程中的数据脱敏在6G设计中必不可少。实现差分隐私的方法包括：在不影响数据统计属性的前提下为训练数据加入噪声，训练模型仍然可以捕捉到原始数据集的特征;使用加密技术，使机器学习基于加密的(而非解密的)数据进行。还有一种方法是，让设备发送模型参数，而不是训练数据，比如说联邦学习和拆分学习。

在这一过程中存在一个风险，如果有完全掌握学习方法的内部人员心怀不轨，那么他可以利用模型逐渐收敛的过程构造与训练数据类似的信息。例如在联邦学习中，信息可能因此被泄露给恶意设备。

不论何种学习方法，数据脱敏都是需要考虑的问题。因此，我们需要在这个前提下，思考如何处理不同学习方法之间的差异和学习方法自身的局限性。

关于作者：童文博士，华为无线CTO，华为5G首席科学家，华为Fellow，IEEE Fellow，加拿大工程院院士，曾获IEEE通信学会杰出行业领袖奖、费森登奖章。朱佩英博士，华为无线研究领域高级副总裁，华为Fellow，IEEE Fellow，加拿大工程院院士。

本文摘编自《6G无线通信新征程：跨越人联、物联，迈向万物智联》，经出版方授权发布。(ISBN：9787111688846)

标签：数据治理