Spark
こんにちは、データアナリストの青木とエンジニアの樋口です。 引き続き、Spark Summit 2017 San Fransiscoの記事です。Keynoteやセッションで特に興味深かったものを紹介していきます。 Keynote Coming in Spark 2.2 まずは、Spark2.2に関する情報がきまし…
Spark Summit 2017 San Francisco こんにちは、データアナリストの青木とエンジニアの樋口です。 6月5日から合計3日間アメリカのサンフランシスコでSpark Summit2017が開催されています。 https://spark-summit.org/2017/spark-summit.org Spark Summit2017…
こんにちは。春休みにブレインズテクノロジーのインターンシップに参加した、現在学部4年生の松井です。 インターン中にやったこと、ハマったことなどをまとめてみました。 やったこと Spark SQLについて 実行環境について S3に置かれているログデータをロー…
あけましておめでとうございます。 Impulse開発チームの木村です。 今回は、Spark 1.6.0で導入されたDataset APIを、spark-shell上で触ってみました。 Dataset APIとは Dataset APIは、RDDやDataFrameと同じく、データのまとまりを扱うためのAPIです。 RDDと…
どうも、ポンセです。 前回の続きです(タイトルを微妙に変えていますが)。SparkというよりSQLのWindow関数周りの話になっている気がしますが、気にせず書きます。今回はSQLの形式で書きたいと思います。 ROWS 前回と同様にグループ単位での平均値を行毎で…
はじめまして、ブレインズテクノロジーのポンセです。pysparkにWindow Functions(ウィンドウ関数)の機能がSpark 1.4で追加されました。 pyspark.sql module — PySpark 1.4.1 documentationこのWindow Functions、ランキングや移動平均値等々の集計を行うと…