Power BI 中的表按列存储
Posted: Mon Feb 10, 2025 5:16 am
限制数据历史记录
除了选择正确的聚合级别之外,考虑要保留多少历史数据也很重要。您想要保留的历史记录越多,所需的行就越多。现在加载的所有历史数据对于回答结构性业务问题来说真的是必要的吗?将历史数据的年数减半可以使模型的规模减半。还请仔细考虑您所应用的 缓慢变化维度 (SCD) 的类型 。这也会对数据仓库的性能产生重大影响。
限制列数的内容。您可以做些什么来减少数据集中列的存储空间?
删除未使用的列
是否存在包含您不会用来回答业务问题的信息的列?那么我们建议不要进口它们。如果这样做,它们 荷兰电报数据 将占用不必要的存储空间,从而不必要地减慢您的数据集速度。
基数和数据字典
有时将数据从 1 列拆分为 2 列实际上是一个好主意。这是基数的结果。 Power BI 中的基数表示一列中有多少个唯一值。如果一列只有两个可能的值(例如‘是’或‘否’),那么基数就是二。基数越高,需要存储的不同值就越多。
数据字典
Power BI 将其转换为所谓的字典,其中列中的每个唯一值都以尽可能压缩的形式存储。唯一值越多,字典就越大(您的语言包含的单词越多,您的字典就越大)。
因此,有时添加额外的列来减少“字典”的大小是一个好主意。例如,考虑将时间戳分为单独的日期字段和时间字段。
除了选择正确的聚合级别之外,考虑要保留多少历史数据也很重要。您想要保留的历史记录越多,所需的行就越多。现在加载的所有历史数据对于回答结构性业务问题来说真的是必要的吗?将历史数据的年数减半可以使模型的规模减半。还请仔细考虑您所应用的 缓慢变化维度 (SCD) 的类型 。这也会对数据仓库的性能产生重大影响。
限制列数的内容。您可以做些什么来减少数据集中列的存储空间?
删除未使用的列
是否存在包含您不会用来回答业务问题的信息的列?那么我们建议不要进口它们。如果这样做,它们 荷兰电报数据 将占用不必要的存储空间,从而不必要地减慢您的数据集速度。
基数和数据字典
有时将数据从 1 列拆分为 2 列实际上是一个好主意。这是基数的结果。 Power BI 中的基数表示一列中有多少个唯一值。如果一列只有两个可能的值(例如‘是’或‘否’),那么基数就是二。基数越高,需要存储的不同值就越多。
数据字典
Power BI 将其转换为所谓的字典,其中列中的每个唯一值都以尽可能压缩的形式存储。唯一值越多,字典就越大(您的语言包含的单词越多,您的字典就越大)。
因此,有时添加额外的列来减少“字典”的大小是一个好主意。例如,考虑将时间戳分为单独的日期字段和时间字段。