# 列加工

列加工提供了简单的数据加工方式,对表中的指定的列进行数据的清洗(如提取数字、转大写)、转换、拆分、替换或文字转ID等操作,如图是一个简单的列加工节点示例:

列加工

# 使用列加工

当数据需要进行清洗加工时,可以点击节点后面的+号,选择菜单栏中的列加工,此时即新增了一个列加工节点,在列加工节点下,可对数据列进行不同的列加工操作

列加工操作可分为3类:

  1. 替换
  2. 拆分
  3. 清洗

# 替换

将字段里面的部分内容替换为指定内容。如将指标内的字符串惠来县,替换为**县

替换图片

示例地址:替换 (opens new window)

操作步骤

  1. 右键点击需要进行加工的列,选择替换,跳出替换弹窗
  2. 字符串栏里输入被替换字符串惠来县,在替换为栏里输入替换字符串**县,点击确认按钮,完成替换操作
  3. 在左侧的列加工步骤里可以看到新增了一条替换操作记录

TIP

如需使用正则表达式进行匹配替换,勾选使用正则表达式复选框,在字符串输栏中输入正则表达式,系统将按照设置的正则语法规则执行匹配替换。

# 拆分

将数据表中的某一列按照指定分隔符拆分成N列。如演员列里存储的数据为演员1,演员2,我们可以按照分隔符,进行拆分,将字段里存储的多个演员id拆分为多个独立的列

将字段【演员】列按照分隔符,进行拆分

拆分图片

操作步骤

  1. 右键点击需要进行加工的字段列,如【演员】,选择拆分,弹出拆分会话框:
    1. 分隔符栏里输入进行拆分的分割符号,
    2. 拆分策略选择全部
    3. 默认选择拆分为多列
  2. 点击确定按钮,字段【演员】即被拆分为多个字段,在左侧的属性面板中同时新增了一条列加工步骤拆分

# 清洗

清洗掉某列数据中不需要的字符,如清洗空数据、截取字符、提取数字等

将年份字段如2017年截取前4位,形成新的字段年份2017

清洗图片

示例地址:清洗 (opens new window)

操作步骤

  1. 右键点击需要进行加工的字段列,选择拆清洗,选择具体的清洗操作,如【截取字符】
  2. 完成具体的清洗操作之后,在左侧的属性面板中同时新增了一条列加工步骤,名称与具体清洗操作相对应

# 数据清洗操作

清洗的操作有13个:

  • 转为小写:将该列的大写字母字符全部转化为小写字母
  • 转为大写:将该列的小写字母字符全部转化为大写字母
  • 删除空格:删除该列数据中指定位置的空格
  • 删除数字:删除该列数据中包含的所有数字字符
  • 删除字母:删除该列数据中包含的所有字母字符
  • 删除标点:删除该列数据中包含的所有标点符号
  • 删除特殊字符:删除指定的特殊字符
  • 排除空数据:排除该列数据中存在的所有空数据
  • 提取数字:将该列数据中的数字字符提取出来,替换该列原来的数据
  • 提取日期:将该列数据中指定日期格式的字符提取出来,替换该列原来的数据
  • 截取字符:截取该列数据指定位置的字符串,替换该列原来的数据,截取弹框里可以设置截取位置
  • 文本转ID:将文本转化成文本对应的ID,详情可参考文档文本转ID
  • 加密解密:将该列数据按指定算法加密/解密,详情可参考文档数据安全-加密

# 列加工步骤列表

列加工的所有操作记录都被记录在数据表左侧的列加工步骤列表里。列加工步骤列表里还提供了列加工步骤编辑和删除操作。

步骤列表

是否有帮助?
0条评论
评论