ビッグデータのデータガバナンスを実現する
統合プラットフォーム
ビッグデータのデータガバナンスを実現する統合プラットフォーム
NEW!<毎月開催>Talend Studioでデータ処理の基本を学ぶ 有償トレーニング募集中
NEW!<毎月開催>Talend Studioでデータ処理の基本を学ぶ 有償トレーニング募集中
Talendの機能や操作をわかりやすく解説する動画を用意しています。
ジョブの作成手順を説明していますので、Talend製品の開発生産性の高さをぜひご確認ください。
HDFSからデータを取り出し、データ内の単語と出現回数を集計し、結果をMySQLデータベースにロードするMap/Reduceジョブを開発します。
ファイルの存在を確認し、ファイルが存在している場合はエラーメッセージを表示しジョブを終了します。ファイルが存在しない場合はメッセージをポップアップ表示し、ファイルに自動生成したデータをロードします。
ファイルデータの内容を比較し、差異がある場合はログに出力します。差異がない場合は、そのまま処理を終了します。
データ変換の前処理として、内容をチェックするなど、ジョブの開発でよく利用される機能です。
tAggregateRowにより、ある商品の生産数を記録したエクセルデータから、平均、最大、最小の生産数を集計します。
tNormalizeにより空白や空、重複データが混在するデータから不要な部分を取り除き、正規化された一カラムのデータとして出力します。
tMapでのデータ値による条件分岐を利用し、大分類、中分類という形式だが、分類項目が最初のセルにしか入力されていないエクセルの表を、すべてデータが補完された状態で出力します。
ジョブを開発する際にあらかじめリポジトリにデータソースへの接続情報やスキーマ情報をメタデータとして登録する方法とその利用方法です。メタデータを利用することでジョブの開発生産性が向上します。