GCP

FluentdからBigQueryへストリーミングインサートしていた時に以下のようなエラーが発生していました。

Value 1517382940000000 for field time of the destination t ...

Fluentd

以前、FluentdからBigQueryへのログ送信をした時は「forest – copy – bigquery_insert」の順で書いてしまったのですが、copyでBigQuery以外にも出力したい時などに ...

AWS, GCP

BigQueryを利用するにあたりRedshiftのデータをBigQueryに移行する必要がありました。
その際の手法や手順などについて紹介します。

前提RailsからRedshiftのクエリを実行できるようにしておくこ ...

GCP

BigQueryを使っていると思った以上に高い料金が発生していることがあります。
そんなときは、Stackdriver Loggingで調べることができます。

Stackdriver Logging

Stackdri ...

Fluentd, GCP

前回、fluentdに送信したログをBigQueryに出力という記事を書きましたが、
ログの種類によって別のテーブルへ出力したいといったことがあり実際に試してみました。

実現方法ログを送信する際のタグからBigQuery ...

Fluentd, GCP

BigQueryのTIMESTAMPはUTC時間にしか対応してません。
単純にログを出力すると日本時間がUTC時間としてBigQueryのデータができてしまいます。

前回の記事でfluentdに送信したログをBig ...

Fluentd, GCP

fluentdに送信したログをBigQueryに出力してみました。

「fluent-plugin-bigquery」というFluentdのプラグインを利用します。
出力する方法は2パターンあり

ストリーミング ...

AWS, シェルスクリプト

S3の容量がディレクトリ毎でどれくらい使っているかを知りたいと思いやり方を調べてみたのですが、 コマンド一発で簡単にできるみたいな方法はみつかりませんでした。

大量のディレクトリがあったので手動でコマンド叩くのもめんどうす ...

AWS

今回はGlueのETLジョブでS3上のparquetファイルをまとめる処理を作ってみました。

Glueジョブの作成

Glueのバージョンは以下の設定で作成しました。
特に意図はなく最新にしています。

Spark ...

CircleCI

CircleCI2.0のrunステップは宣言するたびに新たなシェルが立ち上がるため、通常ならrunステップ間で変数の共有はできません。

1つのrunステップにずらずらとコードを書くと処理内容の見通しも悪くなるので、できるだ ...