2020-02-22

JMeterの各値を外部ファイル参照にするTips

直近JMeterを利用して性能測定したが、外部設定を参照する機能が乏しく、結局ほとんど手書きになってしまった。外部パラメータファイル化に関して知見ができたので、Tipsで残す。

外部ファイルのデータを読み出す

CSV Data Set Config を使う

外部CSVを読み、ヘッダ行と同じ名前の変数に各行の値を入れて後続処理を続けるconfig
スレッドが1つ回るごとに1行進む。スレッドごとの行の勧めかたや共有は設定可能。複数スレッドが同時に次ループに突入しえる場合、採番のしかたはランダムになる
一番楽な外部読み出し

FileToString 関数

下記でテキストデータを丸々取得できる

${__FileToString(path/to/textfile)}

BeanShellSamplerやListener、Preprocessorで頑張る

下記は、JSONファイルを読み込んで 1 階層目を逐次変数に設定する例。

import net.minidev.json.*;
import java.util.Map.Entry;
import java.nio.file.*;

String jsonFile = "./config.json";

Path file = Paths.get(jsonFile);
String text = Files.readAllLines(file).join("\r\n");

JSONObject jsonObj = (JSONObject) JSONValue.parse(text);

for (Entry<String, Object> entry : jsonObj.entrySet()){
    vars.put(entry.getKey(), entry.getValue());
}

変数・Function

スレッド番号の取得

// ctx.getThreadNum() によりスレッド番号取得可能。番号は0始まり、1刻み増加。
String varName = "id-thread-" + ctx.getThreadNum();
vars.put("id", vars.get(varName));

値の二重評価

vars.put("id", "123");
vars.put("sql1", "UPDATE sometable SET status=10 WHERE id=${id};");

${__V(${sql1})}

上記は、sql1 が一度_V()により展開され、一番外の ${}によりもう１度評価され ${id} が展開される。

2020-02-22

Yamlでレスポンスを定義できるHTTPモックツール、yamoc

HTTPサーバーを模擬的に起動し、HTTP通信するソフトウェアのテストを補助するスタンドアロンのツールを作成した。

（動作イメージ）

f:id:packpak:20200222151117p:plain

ファイルパスとレスポンス定義が書かれたyamlを読み込み、一致した条件に対して固定のレスポンスを返す。

port: 8888

paths:
  # matching GET /hello
  - path: /hello
    methods: get
    response:
      status: 200
      bodytext: hello
      headers:
        Content-Type: text/plain

コンセプト

ハリボテ、軽量、シンプル
yamlファイル１つで状況が完全再現される。
レスポンスは単純に固定値を返す。レスポンスを変えたければ、yamlファイルを変更してプロセスを起動しなおす。
手元で動作確認する程度の用途を想定。NginxやらIISが並ぶ環境に代理として立てるときの挙動は保証しない。特にメモリ消費やバッファリングなどを考慮していない。

使い方・入手方法

[1] ツールをビルドするため、.NET Core SDKをインストールする。また、動作する環境には少なくとも .NET Core Runtimeが必要。

https://dotnet.microsoft.com/download

（※Windows限定だが、Visual Studioに.csコードすべて入れてNugetにパッケージaddすれば、.NET Frameworkをランタイムとするexeもビルドできる。ただし自己責任）

[2] Githubに公開しているソースコードを入手する

Github https://github.com/pakuyuya/yamock-cs

[3] Readme.mdに従いビルド・yamlファイルを作成して実行する

わかっているバグ、問題と今後のfeture

バグ
- 同時アクセスすると、ログがかぶってめちゃくちゃ見にくくなる。ロギングを別スレッドでキューイング/ディスパッチする実装に変えたい
feture
- POST時などに設定されるリクエストボディ中のFormパラメータに対してのフィルタ条件の追加
- フィルタ条件への not equal 演算子追加。less than, grater than は実装が面倒なのでやらない。
- Proxyの追加。実装がめちゃくちゃ面倒だが、個人的に勉強したい
実装上の問題
- 自動テストがほぼ未実装
  - 実装が全く整理されていない。現状、２，３のサブパッケージに分かれているが密結合で単独でテストできない。
  - Httpコンポーネントに直接依存したせいで、自動テストが非常に面倒になってしまった。テストコードをまともに書いていないので、いつか改善したい。

2020-02-06

ソフトウェア開発において高品質評価をうけるには

例え話

あるシステム刷新のためのプロジェクトで、新しいプログラミング言語やフレームワークを採用するにあたり、開発ガイドラインを作ろうという話になった。日ごろからアーキテクチャに関心を持っていた担当者は意気込み、膨大なプラクティスを実際の実装・設計作業を想定の上で丁寧に体系化し、技術の時流に合ったドキュメントが完成した。

しかし、それを受け取った従来からのエンジニア達は、まったく新しい技術を手に、前システムのプラクティスを混ぜ込みつつシステム開発をし、開発ガイドラインが意図したものとはずれた方向へ実装してしまった。現状と乖離し、しかし独自の自律性を持ったドキュメントは、「参考にするが、鵜呑みにすると痛い目を見るドキュメント」として見られることとなった。

果たして、このドキュメントは、高品質といえるだろうか？

品質と主観

ひねくれた回答かもしれないが、それは見方によって違う、というのが一番的を得てると思っている。

何かの基準を達成すれば品質がいい、そうでなければ悪いといえる。「何か」とは、たいてい実際にモノを使ってみたとき、思い通りに使えたかどうかだ。

だから何の基準も提示せず「高品質なもの」を要求するのは、「俺たちに都合のいいもの」を要求しているに過ぎない。

IPAが公開している、「ソフトウェア品質説明の考え方」という資料でも、下記の記述がある。

https://www.ipa.go.jp/files/000040880.pdf

「品質の良し悪しは顧客の評価で決まる」

顧客から低品質評価を受けるパターン

システム開発に従事しておりある程度の規模のIT部門・責任者とのやりとりを経験されているなら、そのうち品質に関するクレームを頂くことになる。

「バグが出るのは作業品質が悪いのではないか」「設計書と実装が乖離しているのは品質の面からどうなのか」「受託している以上品質担保してくれないと困る」

だいたいは『品質』という内容のない言葉を主張することが多いが、請負側は大抵ぐうの音も出ない。なぜなら、色々な経緯の上、それなりのものを納品したはずだらからだ。それには、いくつかパターンがある

想定しない要求が増え、現実解が低品質なものになった

当初の設計を実装していったら、想定外のことが発覚し折れに折れ、誰から見てもダメなモノに成り下がる。 PoCやフィジビリティを見切れず、ウォーターフォールなら後工程で品質担保・検証するから何かしら出来上がるだろう、という、楽観的な見積もりだが方向転換を許さない環境で生まれる。

もしこの常習犯となりそうだったら、仮設検証とソフトウェア工学において”ここまで確認・検証すればうまくいく”ラインと"変えると過去確認・検証した内容が台無しになる前提"の見切りができていないことを肝に銘じるべきで、もしそんなことを知らない権力に晒された場合は説明責任があなたにあるはずだ。

顧客が求める品質を理解していなかった

例えるのも嫌な例だが、非常に政治的なIT部門の担当者から品質のクレームがあがったとき、彼が本当に求めるものは何かわかるだろうか。

経験則上、下記のような背景がある。

システムから直接利害をうけるユーザーからIT部門へクレームや要望があがり、その代理として要望している。
IT部門の担当者はコミュニケーションによる費用対効果の最大化を図る志向であることが多く、品質向上をコストを引き合いに求めている。
社内で管理する資産や別ベンダー・部署への提示資料として再利用可能な資料を求めている。

システム開発が責務、と思っているエンジニアも少なくないと思われるが、それは、都合のいい顧客像を抱いているだけかもしれない。実際、これらに配慮すれば、開発したアプリケーションは適切に使われるだろうし、逆に顧客のいる土俵にあがりこんで逆にハックするのも、それはそれで楽しい。

現実解を提示できなかった

下請けや外部から参入したパートナーに作業を依頼した結果、低品質なものが出来上がり品質向上しきれず破綻することも、よく見る光景だ。

言い換えれば、自分が逆に顧客の立場であり、彼らは顧客に対して高品質なものを納品する術を持っていなかった。そして、自らも彼らが低品質を招くパターンに至ることを阻止できなかった。

人月商売では「いい感じでお願いします」が禁句と思っている。人類への感性極まったアーティストか本当に価値観や考え方を見知った同僚にしか通用しない。事細かに書かれたチェックリストや隙のないルールを提示しても、数割はまともに読まず、他割もないか目の前の課題や問題に熱中したとき、おもしろくないものなど忘れてしまう。

人の心理を理解し、デザインして、この領域における現実解を提示できない限り、ずっとこの問題に悩まされることになる。

最後に

契約を単に徹頭徹尾履行するだけでは、瑕疵とはならないが高品質にはならない。高品質になるようにデザインされた契約や計画を履行することが価値につながる。

結局、高品質評価を受けるということは主観と満足度を満たすことに落ち着く。世にいう品質特性とは、よくある品質評価を単に分類しただけであり、顧客が気づいていない品質を予測し満たすための指標であり、”これを満たすことで品質保証したとみなす”のは正直、ありきのビジネスに他ならないと内心思っている。

高品質なものづくりは、その領域においてそれなりの技術と知識を要するが、実践の敷居は低い。間違った道が分かりやすく、定性的に検証可能で、何より実践・関与した人間の中に積み上げが効く。

世の中に、良いものが作られて行ってほしい。

2020-01-25

【Docker】PHP5.1.6 の環境を Xampp 1.5.4a で再現する

雑記

2020年現在、10年以上前から続いているレンタルサーバーは未だにPHP5.1.6だったりするし、CMSが依存していることもあり案件になりえることに驚いている。（ITやWebをただの告知ツールと認識しているのであれば、10年などまったく代謝の動機に至らないかもしれないが。そもそも予算もないだろう。）

レガシーと呼ばれるPHP フレームワークですら動かない環境は、再現するのも一苦労。当時のオープンソースファミリーだったApacheやPHPはEOLとなり一部リポジトリからダウンロードできなくなり、i386 アーキテクチャは消え失せ、3年前ではビルドできた環境も今や公式リポジトリの消滅によりもはや闇の中を手探りするしかない。

ならば、当時の英知にあやかるしかない、ということで、「XAMPP for Linux」というあらかじめApache、MySQLなどがビルドされたパッケージを用いたDockerファイルを作成。

自動テストができないならせめてE2Eを・・・と悩める同志（？）の一助になれば。

DockerFile

Sourceforgeから、当時のバイナリをダウンロードする。
Sourceforgeがサービス終了する、i386/centos:6 のDockerイメージがなくなるとこのスクリプトは動かなくなる。

# 32bit アーキテクチャじゃないと古いバージョンのxamppが動かない
FROM i386/centos:6

WORKDIR /usr/local/src

# TimeZoneの設定
RUN ln -sf /usr/share/zoneinfo/Japan /etc/localtime

# Xampp for Linux 1.5.4aのintall
RUN curl -L https://sourceforge.net/projects/xampp/files/XAMPP%20Linux/1.5.4a/xampp-linux-1.5.4a.tar.gz/download>xampp-linux-1.5.4a.tar.gz \
    && tar xvfz xampp-linux-1.5.4a.tar.gz && mv lampp /opt/lampp

EXPOSE 80

ADD entrypoint.sh /app/entrypoint.sh

CMD [ "/app/entrypoint.sh" ]

entrypoint.sh

#!/bin/sh

# デーモン起動
/opt/lampp/lampp start

# 無限ループ
while true; do sleep 1000; done

2020-01-19

その実装は新しいルールを持ち込むかもしれない

最近の仕事で、色々もやもやしてきたので書き留める。

誰も何も考えていないようなルール

パートナー稼業でのSEという仕事柄、旧来からのシステムに触れる案件がいくつもあり、たいがいの保守的な現場でいつ立てたかわからないお触書のようなルールをたくさん見てきた。

Gitを採用し変更履歴がすぐに見れるのに、修正の際に // add や // mod コメントを付与し旧コードはコメントアウトし記述は残す。
JavaのWebアプリの案件で、COBOLのクライアントアプリのときに作られた汎用的なコーディングルールを順守するようにしている。
先進的なフレームワークを取り入れるのに、社内プロキシによりブラウザからGithubへのアクセスが禁じられている。

明らかに開発ワークフローを阻害するルールはだいたいわかりやすく一覧化されている。

きっと、作った当初はそれなりに考えていたし、今まで変えられずに引き継がれているのはそれなりの理由があると考えるのが妥当だ。

つまり、過去プロジェクトにより開発された資産/手法/知識が、来るべき時にメンテナンスコスト（負債）としてこの手に渡ってきただけのことになる。

コードにちりばめられた暗黙のルール

昨今の技術系記事で「〇〇パターンに従って鵜呑みに実装するのは全然理解できてないよね」と言及しているのをよく見る。

むやみやたらに「操作を抽象化したクラスから実態を生成し動作を動的に切り替えているから〇〇Strategy」とか命名規則をつけてコメントに「〇〇のStrategyクラスです」とだけつける、など。

この実装は、開発ワークフローにおいて「Strategyというパターン名を事前に理解しておくこと」という暗黙のルールを組み込む。 Strategyパターンというのが、実装上非常に理にかなっていて理解必須なのであれば有用だが、それ以上のメリットは見込めないだろう。（いわゆるDIもこのパターンを継承しているが、恐らくStrategyの名前を出すだけで終わるのは非常に厳しい。）

また、システムを覗くと、文面化・一覧化されてすらいないルールで埋め尽くされていることが多い。

仮にセミナー管理システムがあっとしたら、きっと次のようなルールがあるだろう。

あるセミナーを設定するには、講師を選択する
講師は講師グループに属しており、大阪、名古屋などの地理的な分類、セミナーの専門性による分類を反映したものであるセミナーの種別によって選択できる・できないがある
ある講師グループは、特定のセミナーしか受けられないような特殊な条件が含まれる
講師は資格や業務上のランク、および稼働時間上限ブッキングや休暇を考慮する必要がある

これだけなら小中学校の面倒くさい文章題を解くようなものかもしれないが、ここから画面やバッチに落とし込んだとき、もはや別制約が生まれてくる。

講師は事前に審査などのワークフローを追加したシステムを経由して登録されている必要があり、適切なデータを用意して担当部署やバッチの処理を待たないと登録できない
講師グループ入力は間違えることができず変更が多々あるので、担当部署で一元的にマスター管理している。また、現場目線での管理項目を持っている。
セミナー実施または中止後の実績入力は、各部署が必要なすべての管理項目を入力する必要がある。

もはや誰も理解したくないような現状が突貫で出来上がり、だいたい初版システムは「各位の利害のすり合わせが十分にできなかった」と評価が下される。

そしてだいたい、改修案件がちょろっとした工数で「うちもAI取り入れる」とか「マーケティングツールと連携する」と立ち上がる。

業務ルールが増えていく中、「三方良し」よろしく各位の効率の良いワークフローを維持し続けるのは至難だ。

ゴシップ的に「古いルールが悪」というのは危険思想

システムのルールに対して、最初参画したときは文句を言う人はいれど、長らく保守で馴染んだり開発したりした後はごく少ないはずだ。

ごく個人の分析では、それを踏襲しないとワークフローが成立しないことを知っているか否か、とみている。

たとえば、冒頭で出した３例からとりあげよう。

Gitを採用し変更履歴がすぐに見れるのに、修正の際に // add や // mod コメントを付与し旧コードはコメントアウトし記述は残す。

これも、並行開発・納品されたコードをマージするときは、何も考えずにコメントの範囲を切り貼りすればよく、加えて必要範囲外の修正を抑制する効果もある。コミット作業する人物がGitに不慣れで、色々修正した後に一括コミットしてしまい、どこが誰の修正によって入ったかがGitログで判別できなくなった、というの避けられる。

これらを低減するには、「他社や他プロジェクトからのマージは、必ずGitのコミットログごと納品させる」「マージした時点、手直しした時点で２段階にコミットを分ける」などの新たなルールで置き換えて、わざわざ各開発者必読の読み物を１つ用意する必要がある。

JavaのWebアプリの案件で、COBOLのクライアントアプリのときに作られた汎用的なコーディングルールを順守するようにしている。

こんなとんでもルールだって、実はISO9001を取得した際の重要な証跡であり、変更するには全社的に見直しをする必要があるかもしれない。

管理視点、コストゲーム観点からすれば、そのままにするのも理解できないことではない。（現状をそのままにしておくのは、感性が鈍いとしか言いようがないが）

もしほんとうに根絶しようとするなら同じ土俵に上がりこんで、理解して否定すべきではないか。

蚊帳の外から好き放題に言うのは、ゴシップ誌が揶揄されている点にひどく似ている。

ワークフローとルールをデザインするために、恐れずルールを持ち込む

ワークフローを規定する上で、ルールは非常に強力な道具だ。ワークフローを破壊する規定外の行為を制限する一方、プラス方面への想定外の作用も制限する。

１つのコードを持ち込むことで、ルールが生まれる。つまりはそのコードをメンテナンスしたり、別ベンダーに渡したり、読んだり、あるいはシステムを使ったりするうえで影響する。

つまりは、どうあがこうと書いたコードは引き継ぐ誰かに影響するし、ならばこそいいものを作ればよい。

ちなみに、私は、ルールを必要最低限に最小化しようとする。

一番の理由は至極個人的で、あまりあれこれと試行錯誤しようとしない、色んな手段があると管理できなくなる、一つのよくできたツールを深く使いこなすのが好きだからだ。

だが、最近Golangに触れ評価されているところを見ると、割と普遍的かもしれない。ミニマリズムは、コードを引き継ぐものが抱えるルールを減らしてくれる。開発ワークフローについてまわるすべてを効率化してくれる。

書いているものは例え小さいコードであっても、デザインの余地はある。

2019-09-05

【Amazon Redshift】分散スタイルの効果実証ログ

Amazon Redshift の分散スタイルのチューニング結果を手元で試したログ。

結論

分散スタイル設定の主目的は、ネットワークトラフィック抑制。
BIツールから投げられるような、取得する総データ量が軽微なクエリに対して、レスポンスの改善は期待できない。
バッチ処理によるGROUP BY や、JOINを多量にして、VARCHAR(50)とかデータ量の多いデータをどんどん取得・集計するクエリにはちょっと効果があるかも。

何故分散スタイルをチューニングするのか

再分散を抑制するため。

Redshiftは演算を実施するスライスたちにデータを分散させ、並列で実行させるアーキテクチャ。
再分散とは、分散したデータを1か所に集めないとできない演算が発生したときに、ネットワーク経由ですべてのノードにデータが完全に複製している状態を仮想で作り出す実行ステップ。

再分散はどれほど怖いのか？

再分散はテーブル結合やGROUP BY 句を伴うクエリで発生する。
単純なクエリで、最終的に転送するデータ量が少ないテーブルに対しては脅威とならない。
最終的に取得する・転送するデータ量が多いとき、多量のbyteでデータ転送が発生するとき、再分散だけで数分要するなどのケースが発生しえる。
- GROUP BY 後に流れる総データ量が数百GBに達するINSERT SELECTや、数千万レコードと数千万レコードでのJOINが発生するなど、明確なボトルネックが発生するケースのみチューニングする価値がある。
何より肝心なのが、単体のレスポンスには直接関与することは少ない。たいていのクエリでは、EVENからDISTにして5～10%性能向上する程度。
トラフィック抑制には一定有効。逆に言えば、利用者があまりおらずトラフィックやリソースが競合しない環境ではチューニングに対する定常的な効果は薄い。

脅威とならないケースのコスト検証

あまり脅威とならないケースから。
下記は、SQLを実行後、SELECT pg_last_query_id(); などでquery idを取得して svl_query_summaryテーブルの明細を出したもの。

-- サンプルテーブルに対して行取得
-- sandbox.tdata_even→ 1000万レコード
-- sandbox.master_a_10000→ 1万レコード
-- 取得結果→ 1万レコード
SELECT  master_a_10000.codea, count(*)
FROM sandbox.tdata_even
  LEFT JOIN sandbox.master_a_10000 ON (tdata_even.codea_loop = master_a_10000.codea)
GROUP BY codea;

SELECT pg_last_query_id();
SELECT query,stm,seg,step,maxtime,rows,bytes,label,workmem FROM svl_query_summary WHERE query = 6023269 ORDER BY query, stm, seg, step;

実績取得結果

query	stm	seg	step	maxtime	rows	bytes	label	workmem
6023269	0	0	0	64765	10000	130000	scan tbl=5892173 name=master_a_10000	0
6023269	0	0	1	64765	10000	0	project	0
6023269	0	0	2	64765	10000	80000	bcast	0
6023269	0	1	0	65898	10000	80000	scan tbl=852075 name=Internal Worktable	0
6023269	0	1	1	65898	10000	0	project	0
6023269	0	1	2	65898	10000	160000	hash tbl=405	256376832
6023269	1	2	0	213503	10000000	130000000	scan tbl=5891185 name=tdata_even	0
6023269	1	2	1	213503	10000000	0	project	0
6023269	1	2	2	213503	10000000	0	project	0
6023269	1	2	3	213503	10000000	0	hjoin tbl=405	0
6023269	1	2	4	213503	10000000	0	project	0
6023269	1	2	5	213503	10000000	0	project	0
6023269	1	2	6	213503	1000	24000	aggr tbl=414	60555264
6023269	1	2	7	213503	1000	0	dist	0
6023269	1	3	0	215655	1000	16000	scan tbl=852077 name=Internal Worktable	0
6023269	1	3	1	215655	1000	24000	aggr tbl=417	242221056
6023269	1	3	2	215655	1000	0	project	0
6023269	1	3	3	215655	1000	0	project	0
6023269	1	3	4	215655	1000	0	return	0
6023269	1	3	5	215655	0	0	merge	0
6023269	1	3	6	215655	0	0	aggr tbl=425	0
6023269	1	3	7	215655	0	0	project	0
6023269	1	4	0	216345	1000	16000	scan tbl=852078 name=Internal Worktable	0
6023269	1	4	1	216345	1000	17000	return	0

上記のうち、labelがbcast（ブロードキャスト）およびdist（必要分だけ分散）が再分散の実行ステップ明細になる。
ご覧の通り、scan（スキャン）やproject（データ選択操作）で処理したbytesの総量は130MB にも上っているが、肝心の再分散の転送バイト数は非常に小さいものとなっている。
- Redshiftは列指向で処理するため、SQLで指定した列のみを処理している。再分散についても同様で、100列あろうとSQLに書いた列のみが対象となる。
- GROUP BY 演算（project、aggr）に対しても発生するが、svl_query_summaryを見るに、どうやら1スライス内でできる限り演算量を減らした後、必要分だけ分散している。

改善ケース：表結合による大量レコードの分散

通常、大量レコードのテーブル×数レコードのテーブルの結合では、負荷の少ないほうのテーブルが分散する。（ANALYZEにて統計情報を最新化しておく必要あり。また、BCAST_BOTHの場合はどちらのテーブルも分散される）
レコード数が少ないテーブルの分散は数十kbに満たないこと多々あり、これらがボトルネックとなることはまれ。

バッドケースのコスト検証

-- 1000万レコードx1000万レコードで、1レコードあたり 150byte程度のデータを1万レコードに集約
SELECT a.codea_loop, count(*)
FROM sandbox.tdata_even a join sandbox.tdata_even b using (sha512)
GROUP BY a.codea_loop;
SELECT pg_last_query_id();
SELECT query,stm,seg,step,maxtime,rows,bytes,label,workmem FROM svl_query_summary WHERE query = 6023418 ORDER BY query, stm, seg, step;

query	stm	seg	step	maxtime	rows	bytes	label	workmem
6023687	0	0	0	5821035	10000000	1400000000	scan tbl=5891185 name=tdata_even	0
6023687	0	0	1	5821035	10000000	0	project	0
6023687	0	0	2	5821035	10000000	1400000000	bcast	0
6023687	0	1	0	5835378	10000000	1400000000	scan tbl=853799 name=Internal Worktable	0
6023687	0	1	1	5835378	10000000	0	project	0
6023687	0	1	2	5835378	10000000	1520000000	hash tbl=405	256376832
6023687	0	1	2	5822111	0	0	hash tbl=405	0
6023687	1	2	0	15292438	10000000	1450000000	scan tbl=5891185 name=tdata_even	0
6023687	1	2	1	15292438	10000000	0	project	0
6023687	1	2	2	15292438	10000000	0	project	0
6023687	1	2	3	15292438	10000000	0	hjoin tbl=405	0
6023687	1	2	4	15292438	10000000	0	project	0
6023687	1	2	5	15292438	10000000	0	project	0
6023687	1	2	6	15292438	1000	24000	aggr tbl=414	18087936
6023687	1	2	7	15292438	1000	0	dist	0
6023687	1	3	0	15305103	1000	16000	scan tbl=853810 name=Internal Worktable	0
6023687	1	3	1	15305103	1000	24000	aggr tbl=417	72351744
6023687	1	3	2	15305103	1000	0	project	0
6023687	1	3	3	15305103	1000	0	project	0
6023687	1	3	4	15305103	1000	0	return	0
6023687	1	3	5	15305103	0	0	merge	0
6023687	1	3	6	15305103	0	0	aggr tbl=424	0
6023687	1	3	7	15305103	0	0	project	0
6023687	1	4	0	15305790	1000	16000	scan tbl=853811 name=Internal Worktable	0
6023687	1	4	1	15305790	1000	17000	return	0

bcast により、1,400,000,000 bytes の転送がある。全ノード含めて1.4GB弱。
- 再分散のためのネットワーク帯域、メモリスペース、およびCPUパワーすべてを消費していると思われる。
- このクエリ単体ではあまりボトルネックとならないが、複数並列で稼働した場合に、各リソースを奪い合いボトルネックとなることが起こりえる。
また、このクエリは全体で21秒かかったが、結合に使ったのが128バイトのVARCHARであり、HASH演算と結合にかかったコストが非常に高かったことが主要因。

改善する

先ほどEVEN分散だったテーブルを、sha512列を分散キーに選んだテーブルに変更しなおしたテーブルを作成。

SELECT a.codea_loop, count(*)
FROM sandbox.tdata_distsha512 a join sandbox.tdata_distsha512 b using (sha512)
GROUP BY a.codea_loop;
SELECT pg_last_query_id();

query	stm	seg	step	maxtime	rows	bytes	label	workmem
6023693	0	0	0	4495695	10000000	1400000000	scan tbl=5893210 name=tdata_distsha512	0
6023693	0	0	1	4495695	10000000	0	project	0
6023693	0	0	2	4495695	10000000	0	project	0
6023693	0	0	3	4495695	10000000	1520000000	hash tbl=403	256376832
6023693	1	1	0	13986572	10000000	1450000000	scan tbl=5893210 name=tdata_distsha512	0
6023693	1	1	1	13986572	10000000	0	project	0
6023693	1	1	2	13986572	10000000	0	project	0
6023693	1	1	3	13986572	10000000	0	hjoin tbl=403	0
6023693	1	1	4	13986572	10000000	0	project	0
6023693	1	1	5	13986572	10000000	0	project	0
6023693	1	1	6	13986572	2000	48000	aggr tbl=412	21626880
6023693	1	1	7	13986572	2000	0	dist	0
6023693	1	2	0	13994773	2000	32000	scan tbl=853838 name=Internal Worktable	0
6023693	1	2	1	13994773	1000	24000	aggr tbl=415	86507520
6023693	1	2	2	13994773	1000	0	project	0
6023693	1	2	3	13994773	1000	0	project	0
6023693	1	2	4	13994773	1000	0	return	0
6023693	1	2	5	13994773	0	0	merge	0
6023693	1	2	6	13994773	0	0	aggr tbl=422	0
6023693	1	2	7	13994773	0	0	project	0
6023693	1	3	0	13995445	1000	16000	scan tbl=853839 name=Internal Worktable	0
6023693	1	3	1	13995445	1000	17000	return	0

先ほどと比べると、stm 0 の再のbcastとInternalWorktableに対するscan / projectがなくなり、seg1が消滅した。
ただし、改善しても所要秒数は 18.5 秒と、10%強しか改善していない。
ネットワークトラフィックは1.4GB弱から数十KBにまで低減している。（詳しくは、STL_DISTやSTL_BCASTテーブルから観測可能。）

2019-08-25

【Amazon Redshift】列圧縮エンコーディングのディスクサイズ比較

AmazonRedshiftには「列圧縮エンコーディング」というチューニング用のパラメータがあり、テーブル列ごとに適切なものを指定することでディスク保存サイズを低減できる。

読み込み対象あたりのディスクIO削減効果は、列圧縮エンコーディングの圧縮率が高いほど大きい。（ただし、ソートキーなどで対策する範囲限定スキャンの粒度が大きくなってしまい、フィルタや分散の演算量が多くなってしまう）

列圧縮タイプの効果があるかは、実際にテーブルに登録されるデータの内容に大きく左右される。本投稿は、これをいくつかのデータパターン別で検証したものになる。

結論

整数型・日付型・TIMESTAMP型

RAW一択
MOSTRYは効果がないどころか逆効果になる場合が多い。
LZOはサイズが変わらない。ZSTDは数％減るがCPU演算コストに見合わない
DELTAは、「レコードの前後で誤差-128～127に原則収まる」「実数値が2byte以上」の条件を満たせばディスクサイズが減る。

文字列型

20バイトに収まる程度であれば raw（そのほかは効果がない）
日本語項目を持つ長い字句は zstd
ユーザーエージェントやJSONなどある程度データが長く英数字主体（文字種のパターンが少ない）は lzo。CPUリソースに余りがあるならzstd

ANALYZE COMPLESSION はディスクサイズが最小になるものを提案するので、ある程度のデータ量があれば間違いなくzstd、圧縮しても変わらなかったらrawが提案される。そうするとディスクIOがたかが5%～10%減程度なのにzstd採用したせいでCPU負荷がめっちゃ高くなりボトルネック化することがたびたび。

各圧縮タイプの簡単な解説

列圧縮タイプ	内容
BYTEDICT	値をコード値に変換してディスク書き込み、内容は別途辞書化。例えば20byteの値でも数byteコード化して書き込む。値のバリエーションが少ないほど高圧縮だが、バリエーションが一定以上だとバイトコード値が非常に大きくなり、ディスク使用量が指数的に増加する。（公式では、255個以下推奨）
DELTA	前レコードとの差分値を記録。連番やログテーブルのタイムスタンプに適する。ある程度値のサイズが大きくないとRAWと大差なくなる。
DELTA32K	DELTAの2byte記録版。DELTAは差分が1byteを超えると拡張したフォーマットで記録するようになるため、1byte越えが頻出すると痛い。これは初めから2byte枠にする
LZO	LZOという、繰り返しバイト表現をコード化する圧縮方式を使ってデータをシリアライズする。ある程度長い文字データであり英字主体（文字種のパターンが少ない）のものに有効。
MOSTLY8	大きな数値でも入る型にきた1byteで収まる数値を丸めて書き込む
MOSTLY16	大きな数値でも入る型にきた2byteで収まる数値を丸めて書き込む
MOSTLY32	大きな数値でも入る型にきた4byteで収まる数値を丸めて書き込む
RAW	圧縮しない。ただ、VARCHAR(255)型に1バイトしか書き込みしなかったときなどは、なるべくつめる？
RUNLENGTH	まったく同じデータがレコード間で連続配置されているとき、{文字列 x 連続数}の形でディスク書き込みする。
TEXT255	単語（スペース区切り？）をバイトコード化・単語は別途辞書化する。英文など同単語が頻出するもののみ。
TEXT32K	TEXT255はVARCHR(255)の列までしか指定できないが、TEXT32Kは33278まで可能
ZSTD	あらゆるデータをそれなりに圧縮する。数値型や10バイト程度の文字でも1,2割の容量減、英数字の文章なら1/10、日本語も1/3程度に。ただしCPU使用率が非常に高く、いろんな列につかって大量のデータを処理するとCPUボトルネックにすぐひっかかる。

計測結果

検証した対象と条件

下記とおりの組み合わせの 1列 CSVを用意。いずれもレコードは 1000万件。
- 0 ～9,999,999 まで 1行単位で出力したもの
- 0～9を羅列した10行を100万繰り返したもの
- 0を1000行、1を1000行...9を1000行、といった1万行の組を1000回繰り返したもの
- 0～100,000の数字から30種類作り、頻度x1の数字、頻度x2の数字、頻度x10の数字でランダムに出したもの
- 日本語の都道府県を均等に1000万行繰り返し出力したもの
- 日本語の住所を均等に1000万行繰り返し出力したもの
- ユーザーエージェントを1000万件（めちゃくちゃ偏りあり）
- SHA256のハッシュ値16進数文字列
それぞれを RedshiftのCOPYを利用して各データごと×(VARCHAR(255) or numeric(11))×列圧縮タイプのテーブルを作ってインポート
- RedshiftのCOPYは、CSVのデータ順序を保ったままテーブルにコピーするのも利用している
svv_diskusage からデータブロック数(1Mバイト/個)をカウント

SELECT
  MAX(db_id) AS db_id,
  TBL,
  MAX(NAME) AS name,
  COUNT(*) AS "count using databloack(1M byte)", -- 合計
  SUM(CASE WHEN SLICE = 0 THEN 1 ELSE 0 END) AS "/slice0", -- スライス1
  SUM(CASE WHEN SLICE = 1 THEN 1 ELSE 0 END) AS "/slice1" -- スライス2
FROM SVV_DISKUSAGE
where name like '%テーブル名%'
      AND col < 1
      -- redshiftは、デフォルトで列を勝手に3つ追加する
      -- 必要な列数だけをカウント
GROUP BY TBL
ORDER BY TBL;

測定日 2019/08/24

0 ～9,999,999 まで 1行単位で出力したもの

NUMERIC(11,0)型

列圧縮タイプ	データブロック数
BYTEDICT	170
DELTA	94
DELTA32K	104
LZO	112
MOSTLY8	168
MOSTLY16	168
MOSTLY32	124
RAW	112
RUNLENGTH	170
ZSTD	93

LZOが全く機能していない
ZSTDの効果が高いのは、数値が大きくなってマルチバイトになると、類似バイトを圧縮する仕組みが作用したとおもわれる。
何気にDELTAが働いている

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	2546
LZO	122
RAW	122
RUNLENGTH	198
TEXT255	168
TEXT32K	188
ZSTD	90

やはりZSTDが強いが、実データのバイト数は大したことがないのでRAWでいいかも。
BYTEDICTがえらいことになっている

0～9を羅列した10行を100万繰り返したもの

NUMERIC(11,0)型

列圧縮タイプ	データブロック数
BYTEDICT	94
DELTA	94
DELTA32K	104
LZO	84
MOSTLY8	94
MOSTLY16	104
MOSTLY32	124
RAW	84
RUNLENGTH	170
ZSTD	84

1バイト値はRAW一択

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	94
LZO	84
RAW	84
RUNLENGTH	142
TEXT255	112
TEXT32K	132
ZSTD	84

1バイト値はRAW一択

0を1000行、1を1000行...9を1000行、といった1万行の組を1000回繰り返したもの

NUMERIC(11,0)型

列圧縮タイプ	データブロック数
BYTEDICT	94
DELTA	94
DELTA32K	104
LZO	84
MOSTLY8	94
MOSTLY16	104
MOSTLY32	124
RAW	84
RUNLENGTH	84
ZSTD	84

1バイト値はRAW一択

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	94
LZO	84
RAW	84
RUNLENGTH	84
TEXT255	112
TEXT32K	132
ZSTD	84

1バイト値はRAW一択
RUNLENGTHが仕事するかと思ったらそうでもなかった。やっぱ使いにくいなお前な・・・

0～100,000の数字から30種類作り、頻度x1の数字、頻度x2の数字、頻度x10の数字でランダムに出したもの

NUMERIC(11,0)型

列圧縮タイプ	データブロック数
BYTEDICT	94
DELTA	164
DELTA32K	142
LZO	104
MOSTLY8	164
MOSTLY16	136
MOSTLY32	124
RAW	104
RUNLENGTH	166
ZSTD	96

受注金額の分散をイメージしたが、データのつくり方が悪かったかもしれない
数値型は、ひとまずRAWにしておけば無難

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	94
LZO	114
RAW	114
RUNLENGTH	168
TEXT255	142
TEXT32K	162
ZSTD	100

やっぱり、データのつくり方が悪かったかもしれない

日本語の都道府県を均等に1000万行繰り返し出力したもの

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	94
LZO	86
RAW	86
RUNLENGTH	220
TEXT255	192
TEXT32K	210
ZSTD	84

最大12バイトの文字列
下手に圧縮するよりもRAWにしておいたほうが無難

日本語の住所1000パターンを均等に1000万行繰り返し出力したもの

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	1354
LZO	265
RAW	265
RUNLENGTH	554
TEXT255	563
TEXT32K	546
ZSTD	165

ZSTD以外壊滅
ZSTDも、CPUリソースのあまり具合によっては微妙
日本語に対して、LZOが本当に仕事してくれない

ユーザーエージェントを1000万件（めちゃくちゃ偏りあり：873パターンのみ）

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	100
LZO	96
RAW	1218
RUNLENGTH	100
TEXT255	842
TEXT32K	1130
ZSTD	88

ZSTDが無双していると思いきや、LZOが元データ比1/11の圧縮率。CPUの負荷比で考えるとLZO一択。

SHA256のハッシュ値16進数文字列

VARCHAR(255)型

列圧縮タイプ	データブロック数
BYTEDICT	2546
LZO	1338
RAW	1338
RUNLENGTH	1354
TEXT255	1754
TEXT32K	2652
ZSTD	730

1単語、ほぼ繰り返しパターンなしだとこんな感じ
やはりZSTDの圧縮率が最強

おまけ：DATE / TIMESTAMP

TIMESTAMP型

列圧縮タイプ	データブロック数
BYTEDICT	128
DELTA	94
DELTA32K	104
LZO	84
RAW	84
RUNLENGTH	84
ZSTD	84

RAWでよい。

DATE型

列圧縮タイプ	データブロック数
BYTEDICT	94
DELTA	94
DELTA32K	104
LZO	84
RAW	84
RUNLENGTH	84
ZSTD	84

RAWでよい。

全体の考察

無駄に長い文字列型に対して、LZOやZSTDが効果大。そのほかはだいたい地雷、理論値のケースに奇跡的にZSTD超えするぐらい
そんな長い文字って、Redshift格納するべきなんだっけ？（BIで出すの？？？意味ある？？？？）
あとはテストデータが非常に偏っており、有意すぎるのか実際のところが測れていないのかあまりよくわからない結果になった。本番相当のデータをどっかで入手して再チャレンジしたい。
列圧縮タイプが検索クエリにどう影響を与えるのか見たいが、最適化の仕組みが複雑すぎてちょっと無理ゲ―かも。（機械学習でいきなり7,8倍速とかちょっとやめて）