uokadaの見逃し三振は嫌いです

ここで述べられていることは私の個人的な意見に基づくものであり、私が所属する組織には一切の関係はありません。

prestoのrpmパッケージのファイルサイズを削減する

Overview

presto-server-rpmで生成されるrpmパッケージ/tar.gzは現在700MBを超えています(v316ベース)。
一般的な環境であればprestoのコネクターは1つか2つぐらいしか使っていないと思います。
その他の利用していないコネクターを削除したrpm/tar.gzを作成すれば、 PrestoをDocker環境で利用しているのであればDockerコンテナのサイズが削減されデプロイの高速化などが期待できます。

rpm/tar.gzの中身を確認する

まずは、現在のデフォルトの状態でrpm/tar.gzをビルドして内訳をみてみましょう。

 ❯ du -hs presto-server-rpm/target/presto-server-rpm-316-SNAPSHOT.x86_64.rpm presto-server/target/presto-server-316-SNAPSHOT.tar.gz
704M    presto-server-rpm/target/presto-server-rpm-316-SNAPSHOT.x86_64.rpm
704M    presto-server/target/presto-server-316-SNAPSHOT.tar.gz

次に、tar.gzファイルを展開してどのコネクターが容量を占めているか確認してみます。 今回はサイズの大きい上位10件を表示してみます。

% gdu presto-server-316-SNAPSHOT/plugin/* | sort -nr | gnumfmt --to=iec --format "%5fM" --to-unit=K |head -n 10
  118M presto-server-316-SNAPSHOT/plugin/phoenix
  115M presto-server-316-SNAPSHOT/plugin/hive-hadoop2
  111M presto-server-316-SNAPSHOT/plugin/raptor
   51M presto-server-316-SNAPSHOT/plugin/accumulo
   40M presto-server-316-SNAPSHOT/plugin/presto-elasticsearch
   32M presto-server-316-SNAPSHOT/plugin/kafka
   25M presto-server-316-SNAPSHOT/plugin/geospatial
   23M presto-server-316-SNAPSHOT/plugin/ml
   21M presto-server-316-SNAPSHOT/plugin/kudu
   19M presto-server-316-SNAPSHOT/plugin/cassandra

phoenix, raptorなどが100MB超を占めています。 今回はこれらのコネクターrpm/tar.gzを除外してみます。

presto.xmlを編集する

具体的にどのファイルを変更すれば不要なコネクターrpmに入らないかというとpresto.xmlを編集します。

How can I exclude 1 particular plugin in final presto build - Google グループ

今回の変更点はこちらです。

diff --git presto-server/src/main/provisio/presto.xml presto-server/src/main/provisio/presto.xml
index aa9282ea69..9f065b0b06 100644
--- presto-server/src/main/provisio/presto.xml
+++ presto-server/src/main/provisio/presto.xml
@@ -50,60 +50,12 @@
         </artifact>
     </artifactSet>
 
-    <artifactSet to="plugin/cassandra">
-        <artifact id="${project.groupId}:presto-cassandra:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/example-http">
-        <artifact id="${project.groupId}:presto-example-http:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
     <artifactSet to="plugin/hive-hadoop2">
         <artifact id="${project.groupId}:presto-hive-hadoop2:zip:${project.version}">
             <unpack />
         </artifact>
     </artifactSet>
 
-    <artifactSet to="plugin/memory">
-        <artifact id="${project.groupId}:presto-memory:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/blackhole">
-        <artifact id="${project.groupId}:presto-blackhole:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/kafka">
-        <artifact id="${project.groupId}:presto-kafka:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/kudu">
-        <artifact id="${project.groupId}:presto-kudu:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/atop">
-        <artifact id="${project.groupId}:presto-atop:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/ml">
-        <artifact id="${project.groupId}:presto-ml:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
     <artifactSet to="plugin/geospatial">
         <artifact id="${project.groupId}:presto-geospatial:zip:${project.version}">
             <unpack />
@@ -116,42 +68,6 @@
         </artifact>
     </artifactSet>
 
-    <artifactSet to="plugin/phoenix">
-        <artifact id="${project.groupId}:presto-phoenix:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/postgresql">
-        <artifact id="${project.groupId}:presto-postgresql:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/redshift">
-        <artifact id="${project.groupId}:presto-redshift:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/sqlserver">
-        <artifact id="${project.groupId}:presto-sqlserver:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/raptor">
-        <artifact id="${project.groupId}:presto-raptor-legacy:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/redis">
-        <artifact id="${project.groupId}:presto-redis:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
     <artifactSet to="plugin/tpch">
         <artifact id="${project.groupId}:presto-tpch:zip:${project.version}">
             <unpack />
@@ -170,33 +86,9 @@
         </artifact>
     </artifactSet>
 
-    <artifactSet to="plugin/mongodb">
-        <artifact id="${project.groupId}:presto-mongodb:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/localfile">
-        <artifact id="${project.groupId}:presto-local-file:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
-    <artifactSet to="plugin/accumulo">
-        <artifact id="${project.groupId}:presto-accumulo:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
-
     <artifactSet to="plugin/presto-thrift">
         <artifact id="${project.groupId}:presto-thrift:zip:${project.version}">
             <unpack />
         </artifact>
     </artifactSet>
-
-    <artifactSet to="plugin/presto-elasticsearch">
-        <artifact id="${project.groupId}:presto-elasticsearch:zip:${project.version}">
-            <unpack />
-        </artifact>
-    </artifactSet>
 </runtime>

今回は phoenix 以外にも不要なプラグインも削除しています。
いくつか自分が使っていないプラグインを削除してどれぐらいファイルサイズを削除できるかみてみましょう。

$ ./mvnw clean install package -DskipTests -Dair.check.skip-all=true -pl presto-server,presto-server-rpm

全モジュールを再ビルドすると20分ぐらいかかるのでpresto-server,presto-server-rpmモジュールだけを指定してmavenビルドします。

$ du -hs presto-server-rpm/target/presto-server-rpm-316-SNAPSHOT.x86_64.rpm presto-server/target/presto-server-316-SNAPSHOT.tar.gz
256M    presto-server-rpm/target/presto-server-rpm-316-SNAPSHOT.x86_64.rpm
256M    presto-server/target/presto-server-316-SNAPSHOT.tar.gz

期待通り、rpm/tar.gzのサイズが小さくなっていますね。 今回の変更で半分以下のファイルサイズまで容量を削減出来ました。 一応、ファイルを展開して中身を確認してみましょう。

% gdu presto-server-316-SNAPSHOT/plugin/* | sort -nr | gnumfmt --to=iec --format "%5fM" --to-unit=K |head -n 10
  115M presto-server-316-SNAPSHOT/plugin/hive-hadoop2
   25M presto-server-316-SNAPSHOT/plugin/geospatial
   17M presto-server-316-SNAPSHOT/plugin/presto-thrift
   14M presto-server-316-SNAPSHOT/plugin/resource-group-managers
   13M presto-server-316-SNAPSHOT/plugin/mysql
   11M presto-server-316-SNAPSHOT/plugin/jmx
   11M presto-server-316-SNAPSHOT/plugin/session-property-managers
    9M presto-server-316-SNAPSHOT/plugin/password-authenticators
    6M presto-server-316-SNAPSHOT/plugin/tpcds
    5M presto-server-316-SNAPSHOT/plugin/tpch

しっかり、指定したモジュールのプラグインだけが残っています。

このようにして不要なコネクターを削除することで不要なファイルサイズを削減出来ました。

まとめ

Dockerでprestoを使うならこういった形でコンテナサイズを削減してデプロイを高速化しておくと良いでしょう。