BLOGTIMES
2015/05/25

Apache Drill で CSV を SELECT してみる

  nosql 
このエントリーをはてなブックマークに追加

様々なデータソースからデータを SQL で処理できるエンジン Apache Drill の 1.0 がリリースされていました*1。これが面白いのは JSON や CSV などに対して SQL によるデータ加工ができること。以下のように S3 などと連携させた面白い例がたくさんありますが、まずはシンプルに CSV を SELECT してみます。

まず、apache-drill-1.0.0.tar.gz を適当なところに解凍しておきます。今日テストとして使うのは日本郵便の郵便番号 CSV*2 の東京版。文字コードの設定方法がわからなかったので、これをとりあえず UTF-8 に変換してデスクトップに配置しておきます。

あとは以下のような感じでやると簡単に CSV が SELECT できます。

C:\Windows\System32>cd C:\Users\hsur\Desktop\apache-drill-1.0.0\bin C:\Users\hsur\Desktop\apache-drill-1.0.0\bin>sqlline -u "jdbc:drill:zk=local" WARN: JAVA_HOME not found in your environment. Please set the JAVA_HOME variable in your environment to match the location of your Java installation DRILL_ARGS - " -u jdbc:drill:zk=local" HADOOP_HOME not detected... HBASE_HOME not detected... Calculating Drill classpath... Error setting configuration: isolation: java.lang.NullPointerException 5 25, 2015 9:18:18 午後 org.glassfish.jersey.server.ApplicationHandler initialize 情報: Initiating Jersey application, version Jersey: 2.8 2014-04-29 01:25:26... apache drill 1.0.0 "a drill in the hand is better than two in the bush" 0: jdbc:drill:zk=local> SELECT * FROM dfs.`C:\Users\hsur\Desktop\13TOKYO.csv` . . . . . . . . . . . > WHERE columns[2] like '1130022'; +------------------------------------------------------------------------------------------------------+ | columns | +------------------------------------------------------------------------------------------------------+ | ["13105","113 ","1130022","トウキョウト","ブンキョウク","センダギ","東京都","文京区","千駄木","0","0","1","0","0","0\r"] | +------------------------------------------------------------------------------------------------------+ 1 row selected (1.501 seconds) 0: jdbc:drill:zk=local>

これは工夫次第でいろいろ使えそうですね。


トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7634
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form

コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。

OpenID を使ってログインすることができます。

Identity URL: Yahoo! JAPAN IDでログイン