综合百科

大规模数据分析和建模 – 28百科知识网-pg麻将胡了模拟器

大规模数据分析和建模

了解数据建模的初始阶段,我们需要明白何为数据模型。数据模型(data model)是数据特性的抽象化表示,它从抽象层面描述了系统的静态特性、动态行为及约束条件,为数据库系统的信息表示与操作提供了框架基础。

数据在信息系统中主要承担两种角色:一是作为操作型系统的数据记录保存者,二是作为分析型系统的决策支持者。简而言之,前者负责维护最新数据状态,后者则反映一段时间内的数据变化。操作型系统常简称为oltp(联机事务处理),而分析型系统则简称为olap(联机分析处理)。在oltp场景中,实体关系模型(er)常被用于存储,以确保事务处理中数据的冗余和一致性。在olap场景中,则有多种建模方式,如er模型、星型模型和模型等。

数据建模是一种定义和分析数据需求及其相应信息系统的过程。从用户需求到实际数据库的构建,涉及三种主要的数据模型类型。概念数据模型,作为用户对数据存储的初步理解,是综合信息需求的反映。逻辑数据模型则是用户所看到的数据库模型,它详细描述了数据,但并不涉及数据的物理实现方式。而物理数据模型则更进一步,它描述了数据在存储介质上的具体结构,需要考虑dbms、操作系统和硬件等因素。

接下来,我们将详细探讨几种关键的数据模型。

一、d-r模型(实体关系模型)

d-r模型,简称er模型,其构成部分包括实体集、属性和联系集。实体集用矩形框表示,属性则用椭圆框表示,并通过无向边与实体集相连。实体间的联系用菱形框表示,并标明联系的类型。

二、星型模型

星型模型是在关系型数据库上实现的维度模型。它由事实表和维表组成,事实表存储事件的数值化度量,而维表则包含事件发生时的实际环境文本信息。这种模型有助于快速满足用户需求,并具有良好的大规模复杂查询响应性能。

三、模型

模型是维度模型的另一种实现方式。它采用预计算、索引策略及其他优化方法,实现高性能查询。该模型可以星型模式、雪花模式或事实星座模式存在。

四、雪花模型

雪花模型是当维表通过其他维表连接到事实表时形成的模型,其图解像多个雪花连接在一起。它是对星型模型的扩展。

在进行数据建模时,我们需要遵循一定的步骤。我们需要收集业务需求和数据实际情况。然后,我们选择要建模的业务过程,并确认所需的维度。我们选择适当的模型落地方式,如星型模型或模型等。


大规模数据分析和建模

你可能也会喜欢...