- blogs:
- cles::blog
2015/05/25

Apache Drill で CSV を SELECT してみる

様々なデータソースからデータを SQL で処理できるエンジン Apache Drill の 1.0 がリリースされていました*1。これが面白いのは JSON や CSV などに対して SQL によるデータ加工ができること。以下のように S3 などと連携させた面白い例がたくさんありますが、まずはシンプルに CSV を SELECT してみます。
まず、apache-drill-1.0.0.tar.gz を適当なところに解凍しておきます。今日テストとして使うのは日本郵便の郵便番号 CSV*2 の東京版。文字コードの設定方法がわからなかったので、これをとりあえず UTF-8 に変換してデスクトップに配置しておきます。
あとは以下のような感じでやると簡単に CSV が SELECT できます。
C:\Windows\System32>cd C:\Users\hsur\Desktop\apache-drill-1.0.0\bin
C:\Users\hsur\Desktop\apache-drill-1.0.0\bin>sqlline -u "jdbc:drill:zk=local"
WARN: JAVA_HOME not found in your environment.
Please set the JAVA_HOME variable in your environment to match the
location of your Java installation
DRILL_ARGS - " -u jdbc:drill:zk=local"
HADOOP_HOME not detected...
HBASE_HOME not detected...
Calculating Drill classpath...
Error setting configuration: isolation: java.lang.NullPointerException
5 25, 2015 9:18:18 午後 org.glassfish.jersey.server.ApplicationHandler initialize
情報: Initiating Jersey application, version Jersey: 2.8 2014-04-29 01:25:26...
apache drill 1.0.0
"a drill in the hand is better than two in the bush"
0: jdbc:drill:zk=local> SELECT * FROM dfs.`C:\Users\hsur\Desktop\13TOKYO.csv`
. . . . . . . . . . . > WHERE columns[2] like '1130022';
+------------------------------------------------------------------------------------------------------+
| columns |
+------------------------------------------------------------------------------------------------------+
| ["13105","113 ","1130022","トウキョウト","ブンキョウク","センダギ","東京都","文京区","千駄木","0","0","1","0","0","0\r"] |
+------------------------------------------------------------------------------------------------------+
1 row selected (1.501 seconds)
0: jdbc:drill:zk=local>
これは工夫次第でいろいろ使えそうですね。
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7634
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . アーロンチェアのポスチャーフィットを修理(112120)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110763)
3 . 年次の人間ドックへ(110363)
4 . 2023 年分の確定申告完了!(1つめ)(109912)
5 . 三菱鉛筆がラミーを買収(109810)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110763)
3 . 年次の人間ドックへ(110363)
4 . 2023 年分の確定申告完了!(1つめ)(109912)
5 . 三菱鉛筆がラミーを買収(109810)
cles::blogについて
Referrers