Technology Topics by Brains

ブレインズテクノロジーの研究開発機関「未来工場」で働くエンジニアが、先端オープン技術、機械学習×データ分析(異常検知、予兆検知)に関する取組みをご紹介します。

Spark

Spark Summit 2017 San Francisco

こんにちは、データアナリストの青木とエンジニアの樋口です。 引き続き、Spark Summit 2017 San Fransiscoの記事です。Keynoteやセッションで特に興味深かったものを紹介していきます。 Keynote Coming in Spark 2.2 まずは、Spark2.2に関する情報がきまし…

【レポート】Spark Summit 2017 開幕!!!

Spark Summit 2017 San Francisco こんにちは、データアナリストの青木とエンジニアの樋口です。 6月5日から合計3日間アメリカのサンフランシスコでSpark Summit2017が開催されています。 https://spark-summit.org/2017/spark-summit.org Spark Summit2017…

Apache Zeppelin & Spark SQLでサーバのログデータを整形・可視化する

こんにちは。春休みにブレインズテクノロジーのインターンシップに参加した、現在学部4年生の松井です。 インターン中にやったこと、ハマったことなどをまとめてみました。 やったこと Spark SQLについて 実行環境について S3に置かれているログデータをロー…

Spark1.6.0のDataset APIを触ってみた

あけましておめでとうございます。 Impulse開発チームの木村です。 今回は、Spark 1.6.0で導入されたDataset APIを、spark-shell上で触ってみました。 Dataset APIとは Dataset APIは、RDDやDataFrameと同じく、データのまとまりを扱うためのAPIです。 RDDと…

【Spark】Window Functions(その2)

どうも、ポンセです。 前回の続きです(タイトルを微妙に変えていますが)。SparkというよりSQLのWindow関数周りの話になっている気がしますが、気にせず書きます。今回はSQLの形式で書きたいと思います。 ROWS 前回と同様にグループ単位での平均値を行毎で…

pysparkのWindow Functions(その1)

はじめまして、ブレインズテクノロジーのポンセです。pysparkにWindow Functions(ウィンドウ関数)の機能がSpark 1.4で追加されました。 pyspark.sql module — PySpark 1.4.1 documentationこのWindow Functions、ランキングや移動平均値等々の集計を行うと…