こんにちは!伊藤です!
みなさんはGoogle CloudでCSVファイルを直接テーブルへデータを追加したいと考えたことはないでしょうか?
今回はその場合に使うことができるDTSというサービスについて紹介していきたいと思います。
本記事でわかること
- DTS (Data Transfer Service)とは
- DTSの使い方
- DTSの使いどころ
DTS (Data Transfer Service)とは
DTSとはData Transfer Serviceの略称です。
GoogleのSaaSアプリや外部のクラウドストレージサービスのデータをBigQueryにあるテーブルへ追加することができる機能です。
GoogleのSaaSアプリの例としてはCloud StorageやYouTubeのチャンネル情報があり、外部のクラウドストレージサービスの例としてはAWSのS3が対象となります。
ファイルからだけではなく、様々データソースからを取り込むことができます。
Cloud Storageから取り込む場合、対象ファイル形式にはCSV、JSON、AVRO、PARQUET、ORC、THRIFTがあります。
DTSの実行スケジュールは、分単位から月単位までの設定が可能で、使用用途に基づいてスケジュールをすることができます。
DTSの使い方
テーブル作成
以下のようにBigQueryにて取り込み先テーブルを作成してください。
取り込むCSVファイルの列数とカラム数、データ型が同じになるように作成してください。
CSVファイルの用意
取り込むCSVファイルを準備してください。
準備したCSVファイルはCloud Storageのバケット内のフォルダに格納してください。
DTSの作成
「≡」アイコンを選択し、BigQuery → データ転送を選択して、DTS作成画面に遷移してください。
転送を作成を選択して、作成画面に遷移してください。
今回の取込対象はCloud Storageのため、Cloud Storageを選択してください。
DTSの設定値について
以下の項目を設定後、保存ボタンを押下し、DTSを作成してください。
表示名 | DTSの名前を入力 |
スケジュールオプション | 繰り返しの頻度や実行時刻などを設定 |
データセット | 転送先のテーブルがあるデータセットを選択 |
Destination table | 取り込み先テーブルを選択 |
Cloud Storage URI | 取り込み対象のCSVファイルを選択 |
Write preference | 取り込みデータが追加なのか洗い替えなのか選択 |
File format | 取り込みファイルの形式を選択 |
Header rows to skip | スキップする行数を入力 CSVファイルのヘッダは取り込まないため、1を入力 |
DTS実行
スケジュール設定をしているため設定した時刻に実行されますが、今回は「今すぐ転送を実行」を押下し、取り込みを行ってください。
テーブルへの取込確認
取り込み先テーブルを見ると、正しく取り込めていることが確認できます。
DTSの使いどころ
毎月や毎週といった決められたスケジュールでファイルが更新され、なおかつそのファイルが取り込まれた際にテーブルにデータを追加したいという場面で使えるのではないでしょうか。
取り込んだテーブルに対してクエリを実行することで、どの項目が多かったや少なかったなどの分析を行うことができます。
まとめ
今回のようにファイルをそのままテーブルへ取り込みことができるDTSというサービスがあります。
とても便利なサービスとなっておりますので、ファイルをBigQueryのテーブルに取り込みたい場合は、ぜひ利用してみてください。
ファイルをテーブルへ取り込みたい場合は、一度DTSを使ってみるのはいかがでしょうか。
おわり。
Google および Google Cloud Platform™ service は Google LLC の商標であり、この記事は Google によって承認されたり、Google と提携したりするものではありません。
コメント