全工程を一つのUIでカバーする
データサイエンス・機械学習プラットフォーム
Dataikuは、データサイエンティストから初級アナリストまで様々なメンバーで構成される、データ分析チームの誰もが扱いやすいコラボレーションデータサイエンスプラットフォームです。
データサイエンティストからビジネスユーザまで様々なスキルセットを持つメンバーが、チームとして共同で機械学習の全行程をカバーできます。
ソースデータへの接続、データの準備・加工、機械学習モデルの自動生成、モデルのデプロイ及び運用管理。これら一連の処理を一つのプラットフォームで実行できます。
また、上述の全行程に加えて、モデルの性能監視と再トレーニングを自動化することで作業効率が大幅にアップします。
フルサポート
・MySQL
・PostgreSQL
・Vertica
・Amazon Redshift
・Pivotal Greenplum
・Teradata
・Oracle
・Microsoft SQL Server
・Google Bigquery
・Snowflake
Tier2サポート
・IBM DB2
・SAP HANA
・IBM Netezza
・AWS Athena
・Exasol
※Tier2サポートとはベストエフォート対応を意味します。詳細は、弊社までお問い合わせください。
はい。MongoDB、Cassandra、Elasticsearchに対応しています。
Designノードは開発環境です。AutomationノードとAPIノードは運用環境です。
Designノードで機械学習モデルを含むデータ分析処理フローを開発します。Automationノードでバッチ予測を実行します。モデルのパフォーマンスをより適切に評価し、本番データをより細かく制御します。APIノードで、リアルタイム予測を実行します。HTTPリクエストに応答するアプリケーションサーバーです。
エディション毎に接続可能なデータソースの種別、利用可能な最大ユーザ数や最大ノード数などに差異があります。詳細については、弊社までお問い合わせください。
弊社ホームページのお問合せフォームより「Dataiku無料トライアル版」をお申し込みください。
プロジェクト選択画面から +NEW PROJECTをクリックして、Sample projectを選択します。
はい、可能です。既存のビジュアル・レシピで処理できない場合、Python、R、SQL言語などで独自の処理を行うコード・レシピを作成できます。
はい。Files-basedとColumn-basedの2種のパーティションを活用できます。
前者はFilesystem、HDFS、Amazon S3、Azure Blob Storage、Google Cloud StorageおよびNetworkデータセットに対応します。 後者はSQL databases、NoSQL databases(MongoDB、Cassandra)に対応します。詳細については、弊社までお問い合わせください。
ジョブは基本的にDataikuインスタンス上で実行されます。ただし、データの配置先と実行処理の内容によって、データベースやSparkを実行エンジンとして使用することができます。
例えば、同一データベース内の複数テーブルを結合する場合、SQLエンジンが使用されます。HDFS又はS3上のデータセットを結合する場合は、Sparkが使用されます。実行エンジンの最適化により、データセットとDataikuインスタンス間の不要なデータ転送を抑止すると同時に、ジョブの実行を高速化します。
はい。運用環境では想定外のデータが流入します。自動実行中の処理フローが異常終了するケースが多く見受けられます。
データセット内のカラム数の変化、データの最大値、最小値、平均値などが一定のしきい値を超えた場合のエラー処理をプログラミング無しで簡単に定義することが出来ます。この結果、不正なデータを使ったモデルの学習を抑止して、モデルの性能劣化を予防します。
次のエンタープライズアプリケーションへのコネクタがあります。
– Snowflake
– Salesforce
– Pipedrive
– Google SpreadSheets
– HubSpot
– Intercom
– Github
– Freshdesk
ユーザはプラグインを作成して、オンプレミス及びクラウドの双方で、ほとんどのアプリケーションにアクセスできます。サポートされている標準のコネクタにの詳細は、弊社までお問い合わせください。
SFDCコネクタなどの利用できないものは、プラグイン(MicrosoftプラグインにはAKS、PowerBI、AzureCognitive Servicesが含まれます)から利用できます。NetSuiteはJDBC経由で接続可能となります。
はい。Scenario機能を使用して、特定のフォルダ下のデータソースの変更を検知して自動で読み込むことができます。
はい。次の機能に対応します。
– 手動または自動プロセスによって起動するデータのリロード
– 手動または自動プロセスによって起動する日付ベースのパターンまたはカスタムパターンを使用した、データの増分リロード
– Cloud Storage / Hadoop / SQLデータベース間の効率的な並列同期
– データセット変更時の更新
パーティションを使用して、増分データのリロードを処理できます。また、Scenario機能を使用して、ユーザが指定したジョブを自動実行することができます。
Scenarioの起動タイミングは下記の通りです。
– スケジュールに基づいてジョブを起動する
– データソースが変更された場合にジョブを起動する
– SQL/SELECT文の結果が変化した場合にジョブを起動する
はい。Python Code Recipe、R Code Recipe等を使用します。
はい。Dataikuは、クラウドとオンプレミスの両方のデータソースへのアクセスがあります。 GCP、Azure、AWSなどの3つの主要なクラウドベンダーをサポートしています。
– 複数のクラウドデータプラットフォーム(Amazon S3、Google Cloud Storage、Azure Blobストレージ、Azureデータウェアハウス、Azure Data Lake Storage)でのデータアクセスのサポート
– 複数のHadoopクラスター(複数のYARNリソースマネージャーなど)に接続する機能
– EMRクラスターを作成、破棄、およびスケールアップおよびスケールダウンする機能
– 選択した計算タイプのルールを設定して、特定のプラットフォームエンジンで実行する機能
– マルチクラウドプラットフォーム全体での検索とメタデータ検索
はい。アイコンのドラッグアンドドロップとGUIベースのオプション入力により、データ接続とデータ前処理フローを構築可能です。
はい。双方に対応します。
– 自動ファイルタイプ検出、ファイル形式(CSV / XML / JSON)検出および処理のサポート
– データのクレンジング、結合、強化のサポート
– スクリプトによるルールのサポート(式/正規表現/任意のpythonまたはRコードのように優れています)
– スクリプトなしのルールのサポート(フィルター / X値ベース / X文字列マッチング)
ここで説明するすべての変換ステップは、コーディングなしでガイド付きプロセッサーを使用して視覚的に実行できます。Dataikuでの作業の任意のステップと同様に、カスタムRまたはPythonコードを含めることもできます。
通常はDatawarehouse(DW)、他のデータソース(オンプレミスまたはクラウド)、またはDatalake(DL)に接続します。エンタープライズETLを使用してソースデータをDWまたはDLにロードします。ここで、データクレンジングと準備を使用して洞察を生成するために使用されるデータのサンドボックスを生成します。
はい。Dataikuは、ソースのコンテンツを発見するだけでなく、ソースが特定されたら、EDA(探索的データ解析)を含むさまざまな調査を実行してデータの詳細を理解できるデータカタログがあります。
データ検査が完了すると、複数の「ビジュアルレシピ」を使用して、データセットをクリーンアップ、準備、および強化できます。また、完全にクリーンではないデータセットについては、クリックしてデータセットを前処理し、欠損値を補完し、数回のクリックで外れ値を除外することもできます。
対応機能のまとめ:
– 任意のソースからコンテンツをプレビューする機能
– 欠損値、外れ値、正規化の自動または半自動処理
– 値に基づいて外れ値を検出して除外する
– モード、平均等に基づいて欠損値を埋め込む
– データベースエンジンで使用して、完全なデータの分析結果を取得
– データソースを探索し、DBからインポートする前にプレビューを取得
はい。「結合」レシピにより、2つ以上のデータセットを結合します。Dataikuは、内部結合、左外部結合、完全外部結合を処理します。「グループ化」レシピを使用すると、SQLデータセットであるかどうかにかかわらず、Dataikuの任意のデータセットで集計を実行できます。レシピには、(カスタム)集計とエイリアスを設定するためのビジュアルツールが用意されています。
Dataikuは、ランダム、層別ランダム、クラスの重み、列の値のサブセットなどのさまざまなサンプリング方法をサポートし、数値は構成に基づいて自動的に計算されます。
対応機能のまとめ:
– 探索、データ準備、グラフ、機械学習、APIによるサンプリング
– サンプリング/フィルタレシピ
– さまざまなサンプリング方法(ランダム、層別、ハッシュベース、リバランスなど)
– 列値ベースのサンプリング
– K-Fold法
– 自動サンプルサイズ決定
– より複雑なサンプリング方法を行う為に必要なコードの公開性
はい。Dataikuは、関連性のないデータを除外するためのさまざまなフィルタリング機能を提供しています。
はい。Dataikuは、データセットのメタデータを検索するためのデータカタログがあります。接続されたデータソースは、データベースのコンテンツをデータカタログで検索できるようにするために、データセットのメタデータをスキャンまたはインデックス化できます。さらに、さまざまなメタストアと統合し、これらのメタストアカタログを活用します。
Dataikuデータカタログに含まれる機能:
– データセット、変換、モデル、ノートブック、ダッシュボードの検索、メタデータ検索、フィルタリング
– メタデータを検索および取得するためのカタログへのAPIベースのアクセス
Dataiku監査ログに含まれる機能:
– データソースに対するユーザアクティビティの追跡可能性と監査可能性
– サードパーティシステムへのアクセスを提供するための広大な拡張性
Dataikuバージョン管理機能に含まれる機能:
– Gitベースのバージョン管理。変更の履歴を明確に調査可
– リモートGitリポジトリに変更をプッシュする機能
Dataikuの視覚化された準備は、クリック操作だけで正規化、標準化、グループ化、および集計を実行できます。
– テキストの解析、トークン化、および正規化(Unicode正規化)
– NLP機能によるテキストの簡略化(ステミング、ストップワードなど)
– 自動フォーマット検出、正規化、抽出による日付解析
– 数値の解析と正規化、標準形式とカスタム形式の両方
– 測定単位を正規化します(重量、高さ、速度、…)
高度な視覚的グループ化およびウィンドウ機能:
– 複数のキーサポートによるグループ化
– 標準関数を使用した集計(カウント、合計、平均、最小、最大)
– 高度な集計関数(中央値、標準偏差、分数、最初の値、リード、ラグ、リード差分、ラグ差分)
– カスタム集計関数を追加する機能
– ウィンドウ集計関数(ランク、密ランク、累積分布、並べ替え、パーティション分割、ウィンドウ処理、…)
はい。移動平均などのウィンドウベースの集計や、集計単位時間の指定、欠損している時間のデータの線形補完、スプライン補完などをサポートしています。
はい。Dataikuでは、カスタムPython前処理を定義できます。また、PreparationレシピからPython関数で定義した処理を行ごとに実行することも可能です。
はい。データへのアクセス、準備、クリーニング、正規化、変換のロジックを備えたすべてのワークフローは、メトリックとチェックを組み込んだシナリオを通じて自動化でき、新しく取り込まれたデータが期待されるルールに準拠していることを確認できます。
– データ型の自動推論
– 欠損値、外れ値の自動処理
– 数値の自動正規化
– テキストデータの自動処理
– データセットの再構築とデータ前処理ステップの実行を(視覚的またはコードで)自動化する機能
はい。Dataikuは、任意のデータセットの[統計]タブで一変量分析と二変量分析をサポートしています。
– 最小/最大
– 中央値/平均
– 分位点など
– 最も頻度の高い値と上位N個の値
– サンプルまたは完全なデータの統計
– 外れ値の検出、IQR、ユニーク値の識別
はい。EDA(探索的データ解析)のT検定とカイ2乗統計をサポートしています。
EDAの信頼水準メニューを使用すると、ワークシートで統計的検定のグローバル信頼水準を定義できます。特定の統計タスクはこの値を使用して、信頼区間を作成し、有意水準に従ってp値を強調表示します。通常、A / Bテストは、バッチまたはリアルタイムのスコアリングによってモデルがデプロイされた後に実行されます。テーブル、バー、ヒートマップ、ボックスプロット、ツリーマップ(プラグイン)などの視覚化機能をサポートします。
– ドラッグアンドドロップインターフェイスを介して多くの視覚化を構築する
– テーブルの視覚化
– バーの視覚化
– ボックスプロット
– 散布図
– 六角形の地図
– 積み上げエリア
– バブルチャート
– リフトチャート
– マップ
– 2D分布(ヒートマップ)
– その他
・統合IDEによるカスタムビジュアライゼーションの完全なネイティブShinyサポート
・統合IDEによる完全なネイティブBokehサポート
・統合されたHTML / JS / CSS / Python wsebappsにより、d3のような既存のライブラリを活用したカスタムビジュアライゼーション
・Matplotlib、Plotly、GGplot、Bokehを含む標準の可視化ライブラリを使用して、Python / Rからカスタム可視化を作成する機能
テーブル、チャート、レポート、視覚化のためのさまざまなエクスポートオプション:
– Excel
– PNG
– SVG
– PDF
– RMarkdownレポートをHTMLにエクスポート
はい。ウォーターフォール、ヒエラルシー、サンキー、ツリーなどのカスタムビジュアライゼーションは、既存のプラグインを通じて利用できます。プラグインのカスタマイズも可能です。組み込みの視覚化ツールの機能を超えるカスタムの視覚化は、ggplot2などのライブラリを備えたコードノートブック内で作成して、ダッシュボードに公開できます。
また、Dataikuには、カスタマイズされたグラフを作成するために活用できるwebappアプリケーションが用意されています。
– インタラクティブなWebアプリを作成する(Shiny、Bokeh、Flask、d3.jsを使用)
– すべてのWebアプリをダッシュボードに表示できます
– 利用可能なお気に入りのライブラリーD3、リーフレット
– RMarkdownレポート
はい。Dataikuには、標準のMLモデルとディープニューラルネットワークをトレーニングするためのさまざまな標準アルゴリズム(scikit-learn / XGBoost、keras / tensorflowなど)が付属されています。
はい。Excel数式またはPythonを使用して、任意の式で新しい特徴量の作成できます。また、既存の特徴量から新しい特徴量を自動生成するために、次の機能があります。
– 派生した数値機能の自動処理(log、sqrt、多項式)
– 自動ペアワイズ相互作用機能の作成
– プラグインによるイベントデータの自動機能作成
はい、次の機能がサポートされています。
– keras / tensorflowによるディープラーニングモデリング(LSTMを含むがこれに限定されない)の完全サポート
– H2Oのディープラーニング機能の完全サポート
– アーキテクチャとトレーニングの完全なコード制御
Dataikuは、モデルのトレーニングにオープンソースの機械学習ライブラリを活用しています。インメモリ機械学習用のScikit-learnおよびXGBoostライブラリが同梱されています。
視覚的機械学習インターフェースを介して、エンドユーザに一般的に使用されるMLアルゴリズムの数を公開します。これらのアルゴリズムには、OLS、ロジスティック回帰、ランダムフォレスト、勾配ブーストツリー、XGBoost、SVM、KNN、K平均、分離フォレストなどが含まれます。
ビジュアル機械学習インターフェースを介して利用可能なアルゴリズムに加えて、ユーザは選択したPythonまたはRライブラリをロードして、アルゴリズムをコードレシピまたはノートブックで使用できます。
主なサポート内容:
– ディシジョンツリーのサポート
– MARSのサポート
– ランダムフォレストのサポート
– 勾配ブースティングのサポート
– Extreme Ramformフォレストのサポート
– 極端な勾配ブースティングのサポート
はい。Dataikuは、ハイパーパラメーター最適化とモデル調整のために最適化ルーチンを利用します。
ハイパーパラメーター検索の場合、並列完全グリッド検索、並列時間制限ランダム検索、または並列反復制限ランダム検索を実行します。 Dataiku Version 8.0から、ベイジアン検索とランダム検索も追加されました。