AWS Aurora から Datastream を使って BigQuery にデータをレプリケーションした話

どうも〜、お久しぶりです。

エージェンシー事業のエンジニアチームでユニットマネージャーをしていますぬまちゃんです！
エンジニアブログを書くのは新卒以来なので、４年ほどぶりってところです。

あの頃はエンジニアリングメインでしたが、今はマネジメント業務も行うようになり、「成長したなあ」「あっという間だったなあ」と感じる今日この頃です。

マネージャーとして奮起しているぬまちゃんが久しぶりに新しいことに挑戦したので、そのことを伝えていこうと思います。

背景
やったこと
- 準備編
- 起動編
まとめ

背景

昨今、自分が所属している部署ではGCPのBigQueryにデータを集め、いろんなデータと組み合わせたり、ビジュアライズしたりとデータ活用が盛んに行われています。

自分のチームにもその波がやってきた訳なのですが、担当サービスはAWS上に構築されていて、DBもAurora MySQLを使っています。

なので、GCPのBigQueryにデータを集めるにはなんらかの方法で送信してあげないといけませんでした。

そこで白羽の矢が立ったのはGCPのDatastreamというサービスでした。

やったこと

準備編

まず最初に、Datastreamのレプリケーション方法には３つ種類があります。

超かいつまんで説明すると、

IP許可リスト	フォワードSSHトンネル	VPCピアリング
DatastreamからDBへアクセスできるようにDatastreamのパブリックIPアドレスを許可して、接続する方法。	踏み台サーバーを用意してDatastreamからのアクセスを許可し、踏み台サーバーからDBへ接続する方法。	VPC同士のプライベートネットワーク接続を利用してDatastreamとDBを接続する方法。

今回は「フォワードSSHトンネル」の方法を選択しました。

理由としては、

プライベートネットワーク接続を確立していない
DBにパブリックIPアドレスの接続を許可できない
- 弊社のインフラルールではDBが外部のネットワークへ接続することを許可していない
- そもそもセキュリティグループをガチガチに設定しているので穴を空けたくない
踏み台サーバーの構築が容易にできる環境が整っている

ところで、弊社にはAgency事業部や自社プロダクトの事業部の他に、技術本部という部署があります。そこにはインフラの専門家たちが居て、今回のDatastreamのレプリケーション方法について相談させてもらいました。こうやって専門的なことにも相談に乗ってくれるので、弊社のインフラエンジニアは優秀だなあと常々思っています。

フォワードSSHトンネルの方法で接続するのが決まったので、 Terraformを使ってコードを記述し、EC2の起動テンプレートとAutoScalingを使って勝手に終了しても復活するようにしました。
また、突然の終了にも気づけるようにMackerelでの死活監視も導入しました。

次に、避けては通れない問題の対応です。
Datastreamへレプリケーションするには、Aurora MySQLの binlog_format を ROW に変更する必要があり、それにはDBの再起動が必要でした。担当サービスは会社の基幹システムのような位置付けでもあり、クライアント様などにも利用してもらっている機能もあるためサービスを停止するわけにはいかなかったのですが、メンテナンス（サービスの一時停止）の時間をいただいて作業することができました。
夜中の作業ではありましたが、しっかりと手順書を作ったおかげでスムーズに進めることができました。

起動編

必要なもの

踏み台サーバー
- SSHするユーザーの作成
Aurora MySQLの変更 (参考: Amazon Aurora MySQL データベースを構成する)
- binlog_format を ROW にする
- バックアップの保持期間を７日にする
- バイナリログの保持期間を７日にする
- アクセス用のMySQLユーザーの作成