AWS Glue とは
- サーバーレス(オンデマンド実行・実行時間課金)なETL向けサービス
- 実態は、フルマネージドなPyhton/ApacheSparkの仮想実行環境。
- AWS手製のライブラリ/ランタイムがAWS上のリソースの取得やクエリにめっちゃくちゃ強く(例:S3のデータをロード、Redshiftにクエリ、Athenaにクエリ)、SQL感覚で大規模のデータ加工スクリプトを書ける。
- RedshiftやAthenaにテーブル作ると、自動で収集してカタログという形でメタデータを作る。コードのテンプレート生成に使ったりする。
調べる
2019/06次点では、決定版みたいなドキュメントはなさそう
公式ドキュメント
Future Tech ブログ
ジョブについて
[1] S3にPythonやScalaのスクリプトを置く [2] AWS GlueからJobを作成してキック の流れらしい。
現在、ジョブには2つのタイプがある
- Sparkタイプ
- Python Shellタイプ
- 軽量だが読み込めるライブラリが非常に制限されている
- 起動に20秒
- 参照: https://dev.classmethod.jp/cloud/aws/20190129-aws-glue-python-shell/
1DPU(CPUみたいなの)が1時間稼働したとき、$0.44課金
- 1ジョブごと走るごと、どんなに短く終わっても最低10分走った金額が加算。20~30回デバッグ実行するだけで$10に。(たかい!)