# 加工组件:去重

去重是数据处理中的一个重要步骤,它的目的是消除数据集中的重复项,比如希望在存储了企业多年年报的表中去重查询获取企业最新的年报信息、产品销售表中去重查询每个店铺销售过的产品等。系统里去重加工支持按字段去重分组排序去重两种方式。

# 按字段去重

按字段去重是按照所选的输出字段去重,所有字段值相同时保留其中一行,相当于SQL语句中的distinct。

例如,产品销售明细表中包含了销售的产品信息,需要去重查询所有销售的产品及其分类信息,可以通过按字段去重的方式,选择产品大类、产品小类、产品名称字段进行去重查询。

字段去重

示例:按字段去重 (opens new window)

# 分组排序去重

分组排序去重是字段按照指定的分组字段进行分组,每组内的数据行将按照组内排序字段进行排序后只保留第一行数据返回,其他行都丢弃,通常用于获取组内最新或最大的数据行。

例如企业年报表里存储了企业每年的年报信息,现在需要获取企业最新的年报信息,可以通过分组排序去重的方式,按企业ID进行分组,年报年份降序排序进行去重查询获取最新年报信息。

分组排序

示例:分组排序去重 (opens new window)

  1. 分组字段:确定用于区分数据行是否重复的字段或字段组合。
  2. 组内排序字段:确定具有相同键值的行集合分组内部进一步排序的字段或字段组合。
是否有帮助?
0条评论
评论