MaxCompute实践分析

  • 时间:
  • 浏览:1
  • 来源:大发5分排列5_极速5分排列3

大数据开发套件数据开发标签的工具栏中,点击新建,在下拉菜单中取舍新建表

现在可不不能继续编辑第三段SQL代码

我其实数据不删改,如果 还是可不不能配置一下调度

意味着 本例中这样依赖一些任务,统统只时要配置调度周期,如果 意味着 是每天调度一次,直接保留默认配置即可。

另一十个 表的具体信息如下:



实现路径

1 创建目标表

2 创建任务,通过 [ 电影名称 ] 和 [ 影片名 ] 建立两张表的连接,并按 [ 制片地区/国家 ] 进行分组,对 [ 累计票房(万)] 进行排名



目标分析



现状分析

这次在工具栏中取舍新建任务,取舍节点任务ODPS_SQL类型和周期调度

-另一十个 表中这样例如于 [ 影片ID ] 的字段

编辑SQL代码,先测试一下。

3 配置调度,该任务每天调度一次

点击取舍提交

统统现在看来每天有新的分析报告是不行了,那就对历史数据进行一下分析。

时要调整一下系统参数,设置为其中较早的一天,比如2017年1月19日。

再次运行,得到的结果如下

数据说明直接使用了数加平台公开数据集上的影视及票房数据集。该数据集从2016 年12 月13 日刚刚刚刚刚开始 ,每日早10 点前进行全量更新。

2 创建查询任务进行分析

数据样例

数据样例

最终得到结果如下



必须这样可怜的哪几个数据,选的日子欠缺好。

如果 为那此排名第二的票房是6291?感觉似乎少了另一十个 0,感兴趣的同学可不不能研究一下为那此,意味着 留言指出我的错误。

3 配置调度

输入建表一句话

概述

本文主只是记录咋样通过数加MaxCompute和大数据开发套件另一十个 产品实现简单的电影数据分析。

目标希望了解每天市场上最火爆的电影是那此,表现咋样。通过对影视及票房数据集(dwd_product_movie_basic_info电影基本信息 和 ods_product_movie_box票房基本信息)统计分蒸发掉每天每个国家/地区累计票房最高的10个电影如果 展现那此电影的导演、主演和累计票房。



实现步骤

发现产生的表 t_movie_sumboxoffice_info是空的,意味着 是数据源的两张表后边并都是每一天都是数据的,做一下数据探查。

去重后结果如下

得到的结果如下(截图中只显示了一要素)

1 创建目标表

看来是数据这样补救干净,地处属于同一部电影但主演名字不一样的请况。

我其实这属于数据清洗的范畴,如果 可不不能简单进行一下去重补救。

最大日期是2017年6月500日,最小日期是2017年1月13日,其中还有不连续的问提。

总结整个任务基本上完成,我其实数据不太删改。