DTSを使ってCSVファイルを直接テーブルに取り込んでみた

Google Cloud
この記事は約4分で読めます。

こんにちは!伊藤です!
みなさんはGoogle CloudでCSVファイルを直接テーブルへデータを追加したいと考えたことはないでしょうか?
今回はその場合に使うことができるDTSというサービスについて紹介していきたいと思います。

本記事でわかること

  • DTS (Data Transfer Service)とは
  • DTSの使い方
  • DTSの使いどころ

DTS (Data Transfer Service)とは

DTSとはData Transfer Serviceの略称です。

GoogleのSaaSアプリや外部のクラウドストレージサービスのデータをBigQueryにあるテーブルへ追加することができる機能です。
GoogleのSaaSアプリの例としてはCloud StorageやYouTubeのチャンネル情報があり、外部のクラウドストレージサービスの例としてはAWSのS3が対象となります。
ファイルからだけではなく、様々データソースからを取り込むことができます。

Cloud Storageから取り込む場合、対象ファイル形式にはCSV、JSON、AVRO、PARQUET、ORC、THRIFTがあります。
DTSの実行スケジュールは、分単位から月単位までの設定が可能で、使用用途に基づいてスケジュールをすることができます。

DTSの使い方

テーブル作成

以下のようにBigQueryにて取り込み先テーブルを作成してください。
取り込むCSVファイルの列数とカラム数、データ型が同じになるように作成してください。

CSVファイルの用意

取り込むCSVファイルを準備してください。

準備したCSVファイルはCloud Storageのバケット内のフォルダに格納してください。

DTSの作成

「≡」アイコンを選択し、BigQuery → データ転送を選択して、DTS作成画面に遷移してください。
転送を作成を選択して、作成画面に遷移してください。

今回の取込対象はCloud Storageのため、Cloud Storageを選択してください。

DTSの設定値について

以下の項目を設定後、保存ボタンを押下し、DTSを作成してください。

表示名DTSの名前を入力
スケジュールオプション繰り返しの頻度や実行時刻などを設定
データセット転送先のテーブルがあるデータセットを選択
Destination table取り込み先テーブルを選択
Cloud Storage URI取り込み対象のCSVファイルを選択
Write preference取り込みデータが追加なのか洗い替えなのか選択
File format取り込みファイルの形式を選択
Header rows to skipスキップする行数を入力
CSVファイルのヘッダは取り込まないため、1を入力

DTS実行

スケジュール設定をしているため設定した時刻に実行されますが、今回は「今すぐ転送を実行」を押下し、取り込みを行ってください。

テーブルへの取込確認

取り込み先テーブルを見ると、正しく取り込めていることが確認できます。

DTSの使いどころ

毎月や毎週といった決められたスケジュールでファイルが更新され、なおかつそのファイルが取り込まれた際にテーブルにデータを追加したいという場面で使えるのではないでしょうか。

取り込んだテーブルに対してクエリを実行することで、どの項目が多かったや少なかったなどの分析を行うことができます。

まとめ

今回のようにファイルをそのままテーブルへ取り込みことができるDTSというサービスがあります。

とても便利なサービスとなっておりますので、ファイルをBigQueryのテーブルに取り込みたい場合は、ぜひ利用してみてください。

ファイルをテーブルへ取り込みたい場合は、一度DTSを使ってみるのはいかがでしょうか。

おわり。

Google および Google Cloud Platform™ service は Google LLC の商標であり、この記事は Google によって承認されたり、Google と提携したりするものではありません。

コメント

タイトルとURLをコピーしました