激活大数据应用从“瘦身”做起

2018-06-06 09:01

随着国家将大数据战略提升到国家战略高度，将大数据视为经济发展和转型的重要科技依据，越来越多的企业组织已将数据视为重要资产，着手开展数字化转型的系列举措，以期全面提升客户体验，推动经济增长。

从供给面来看，当今和可预见的未来，大数据、云计算、人工智能等技术都将快速发展并被广泛应用，企业已经认识到数字化转型的可行性和必要性，着手建立企业自身驾驭数据的能力。这其中，数据分析能力的建设显得尤为关键，它是激活数据资产动能、实现大数据价值、推动数字化转型不可或缺的核心力量。

对于制造企业而言，数据贯穿着整个产品生命周期，从客户需求到概念设计、详细设计、工艺设计、仿真试验、生产制造到售后服务全过程。特别是生产制造环节，工厂底层包含了条形码、二维码、RFID、工业传感器、PLC以及SCADA等控制系统，它们无时无刻不在产生数据。然而生产环境中收集的数据多以时间序列模拟流程变量，数据的类型是单一的，很容易建立索引，因此这也是为什么数据仅仅量大是不够的，我们通常谈到的制造业大数据分析是指将不同信息化层级之间的结构性系统数据与非结构性数据结合。

在面对纷杂繁乱的数据时，为创建敏捷的数据平台企业需要将传统的数据仓库结构和方法转换为一个为灵活性而创建、更加平衡和分散的框架。将数据存储在企业数据仓库中显然是不够的，而烟囱式的数据集市也存在由于混乱和错误而破坏整个系统的风险。事实上，如今大部分企业构建的数据集市都是基于SQL、NoSQL、数据库、文件系统或类似技术。无论是否为开源、是否为传统系统，巨大的独立数据建立在诸如Hadoop这样的平台上，能够达到PB级的数据规模，如果不能加以整合优化，在进行数据分析无疑对企业是一场“灾难”。

因此，企业在进行数据分析时，数据架构必须在不同复杂度的多个层次上呈现信息，并划分不同的信息通道和相应的使用角色，这样就可以把不同类型的用户叠加到同一份数据上，让不同的用户在他们所熟悉的场景下使用数据。在Teradata描绘的分层数据架构中，依据数据的颗粒度可分为缓冲层、整合层、计算层、汇聚层、展现层和数据实验室。

其中最底层的缓冲层需要尽可能的反映源系统的表现形式，包括数据类型和结构的沿袭。例如，生产数据和财务数据不能变成文本，否则就会让数据的真实度过早地被破坏掉。缓冲层的数据可以被企业中大多数的数据工程师或数据科学家所访问。不同于独立的数据湖，缓冲层必须是企业级可拓展的，能够让成百上千的用户和进程同时访问和处理数据。

越往分层数据架构上层走，预定义结构的数据就越多，基于此的分析就越容易被企业中更多的人所理解。当到达展现层后，企业可以提供发布数据的API接口，它们具有结构化、同一版本控制、向下兼容的特性，并提供给任何授权的用户和应用访问程序。最后，数据实验室是用户自己主导的数据沙盒，用来支持探索实验和自助服务。

经过分层架构能使企业以数据的最细颗粒度形式分散数据的框架，这使我们能够审视数据的各种用途并将数据按照不同复杂度级别进行重构。在这里，专业的数据科学家可以对原始数据进行研究，将原始数据和现有数据建立起联系，编写初始算法发现更多的模式特征，进而进行整合和结构化处理，从而减少数据重复并确保在不同维度的应用一致性，为今后提升对于数据调整、治理、管理和数据集成能力打下基础。

《国务院关于印发促进大数据发展行动纲要的通知》中指出，数据已成为国家基础性战略资源，大数据产业正成为新的经济增长点，将对未来信息产业格局产生重要影响。对于企业而言，通过保持细颗粒度的数据在企业内外的敏捷传播，将是企业应用大数据、将洞察力落地为行动的必要条件之一。

作者：王阳