DateIDE基本操作

ACA课程学习笔记(8)

1.准备资源环境

  • 申请MaxCompute和RDS的资源
  • 使用企业RAM用户登陆控制台,选择DataWorks功能,进入目标项目进行数据开发。 然后进入了DataStudio的开发界面 DataStudio.jpg

2.完成操作

2.1 数据同步

把MySQL的数据同步到MaxCompute中,也就是把业务数据导入工作区的过程。

  • 在RDS里新建一个数据库,自动运行
  • 在RDS里新建一个普通权限用户,自动激活
  • 对刚新建的用户进行授权,允许读写数据库
  • 使用刚才新建的用户登陆刚新建的数据库
  • 进入SQL窗口,使用SQL语句新建一个表。这里我一直“Access denied”,可能是我赋权以后没有重新登陆,权限数据没有更新,所以我大力出奇迹,新建了一个高权限用户,直接操作就可以了。建表的语句是这样的:
     create table IF NOT EXISTS t_dml_data (
         detail_id  bigint,
         sale_date  datetime,
         province   VARCHAR (20),
         city       VARCHAR (20),
         product_id bigint,
         cnt        bigint,
         amt        double,
         PRIMARY KEY (detail_id)
     );
    
  • 数据方案->导入->新增任务。阿里云提供的实验手册可能是没有更新,不支持csv文件上传,需要在本地手动使用数据库软件,调整数据文件到sql格式。线上有个小工具可以帮你做这样的事,你也可以点击这里下载我调整好的sql文件。
  • 刷新后查看你导入的表,大概是长这样 table.jpg
  • 这时候RDS这边就搞定了,回到你的DataWorks
  • DataWorks主页面->DataWorks图标->数据集成->数据源->新增数据源->MySQL
  • 在”新增MySQL数据源”弹出框中填写相关配置项;
    • 数据源名称:自定义
    • RDS实例ID: 查看实验资源中的“实例”信息
    • RDS实例主账号ID: 查看实验资源中的“企业别名”信息
    • 数据库名:前面章节创建的数据库名称
    • 用户名:登录数据库的用户名
    • 密码:登录数据库的密码
  • 接下来是要组成一个持续同步关系
  • DataWorks主页面->新建->业务流程
  • 在业务流程里创建一个同步数据的节点任务
  • 在节点任务里配置数据源,字符映射,通道控制,调度配置
  • 提交节点任务,然后运行

2.2 新建ODPS SQL

目的是创建一个目标表,用来存放数据分析以后产生的结果。

  • 临时查询->新建节点任务->建表,命令是这样:
     create table IF NOT EXISTS t_dml_result (
        province   string,
        product_id bigint,
        cnt        bigint
     ) partitioned by (sale_date string);
    
  • 然后在共用表里就能看见这张表和相关信息了

2.3 新建业务流程

  • DataWorks主页面->新建->业务流程
  • 新建一个虚拟节点
  • 新建一个数据节点(ODPS SQL)
  • 在数据节点中填入处理命令,如对销售额进行汇总:
    INSERT OVERWRITE TABLE t_dml_result PARTITION(sale_date)
    SELECT  province,
            product_id,
            SUM(cnt) AS cnt,
            '${sdate}'as sale_date
    FROM    t_dml_data
    WHERE   pt = '2017'  
        AND  SUBSTR(sale_date,1,10) = '${sdate}'
    GROUP BY product_id,
             province;
    
  • 打开调度配置,进行参数设置
  • 再打开那个虚拟节点任务,在“调度依赖”中添加上游节点,可使用工作空间根节点
  • 回到工作流任务,拖拽形成上下游依赖关系,结果就象这样: Task.jpg
  • 设置工作流任务的调度时间属性
  • 提交业务流程
  • 运行业务流程,如果报错,则进行调试
  • 点击节点以查看节点日志

2.4 任务运维

  • DataWorks主页面->DataWorks图标->运维中心,运维中心包括运维大屏,任务列表,任务运维,智能监控四大模块
  • 运维操作说明:
    • 展开父节点/子节点:当一个工作流有3个节点及以上时,运维中心展示任务时会自动隐藏节点,用户可通过展开父子层级,来看到更多的节点依赖关系,层级越大,展示越全面。
    • 查看运行日志:进入运维日志界面,可以在运维日志中看到logview等信息。
    • 查看代码:查看当前节点的代码。
    • 编辑节点:单击后可进入节点编辑页面,对节点内容进行修改。
    • 查看血缘:查看此节点的血缘关系图。
    • 终止运行:如果实例在运行中,可单击终止运行,停止任务,只对本次实例有效。
    • 重跑:重新调度此实例。
    • 重跑下游:当前节点的下游重跑实例,如果存在多个下游实例,将会全部重跑。
    • 置成功:将当前节点状态改为成功。
    • 暂停(冻结):将当前节点置为暂停(冻结)状态,并停止调度。当节点状态为暂停时,在节点名称后会出现 图标。
    • 恢复(解冻): 将暂停(冻结)的节点恢复调度。
  • 在新建自定义规则弹窗内,输入规则名称、规则对象、触发方式、报警行为等参数,并单击确认生成规则。各配置项说明如下:
    • 对象类型:控制监控的粒度,可以选择以基线、项目或任务节点作为监控对象。
    • 触发条件:可设置为完成、未完成、出错或超时。
    • 最小报警间隔:两次报警之间的时间间隔。
    • 最大报警次数:报警的最大次数,超过这个次数后无论监控对象状态如何,都不再产生报警。
    • 接收人:报警的对象,可设置为责任人、值班表或其他接收人。
    • 免打扰时间:在该时间段内不会发送报警

2.5 数据管理

数据管理模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

  • DataWorks主页面->DataWorks图标->数据管理
本文总字数: 2295