人工知能または機械学習は、過去 XNUMX 年間で飛躍的な進歩を遂げました。 現在、多くの業界が機械学習ベースのソリューションに多額の投資を行っています。 資格のあるスペシャリストの需要も急増しています。
世界中のいくつかの大学がデータ サイエンスや人工知能に焦点を当てた学位を提供しており、この内容はドイツの大学でも重要性を増しています。 大学は数学的および理論的な概念に焦点を当てる傾向がありますが、現実世界の問題で機械学習モデルをトレーニングするために必要なスキルと知識はまったく異なる場合があります。
必要なデータの入手可能性
ほとんどの場合、データの可用性によって、機械学習を使用して特定の問題を解決できるかどうかが決まります。 新しいプロジェクトを開始する前に、疑問が生じます: このデータでトレーニングされたモデルは、ほとんどの場合正しい答えを提供しますか?
この質問は、ML 実験用に選択されたモデル、ライブラリ、または言語に関係なく適用されます。 そして、他にも重要な基準があります。 モデルは、与えられたデータと同じくらい優れています。 したがって、以下を明確にすることが重要です。
- 適切なモデルをトレーニングするのに十分なデータはありますか? ハードウェアの予算を超えない限り、ほとんどの場合、より多くのデータを使用することが適切です。
- 教師あり学習プロセスで予測は信頼できますか? モデルに正しい情報が与えられていますか?
- このデータは実際の分布を正確に表していますか? 問題の領域をカバーするのに十分なサンプルの変動がありますか?
- モデルを更新して最新の状態に保つために、新しいデータの絶え間ないストリームに常にアクセスできますか?
データの組み立て
ML ソリューションのデータセットを作成するために必要なデータは、多くの場合、複数のソースに分散されています。 サンプルのさまざまな部分がさまざまな製品で収集され、さまざまなプラットフォームのさまざまなチームによって管理されます。 したがって、プロセスの次のステップは、多くの場合、このすべてのデータを XNUMX つの形式に統合し、簡単にアクセスできる方法で保存することです。
より多くの課題と呪い
収集および集計されたデータがあれば、素晴らしい新しい ML アルゴリズムの準備が整ったと思うでしょう。 しかし、克服すべき多くの課題が必然的に存在するため、さらなるステップが必要です。
欠損データ
有効な値がすべての観測で利用できない場合があります。 収集、保管、または送信中にデータが破損した可能性があるため、これらの欠落したデータ ポイントを見つけ、必要に応じてデータ セットから削除することが重要です。
重複データ
これは、モデルのパフォーマンスに関して特に憂慮すべき問題ではありませんが、重複データをデータ ストアから削除して、モデルのトレーニング プロセスをより効率的にし、過剰適合を回避する必要があります。
さまざまな正規化スキーム
データの処理方法と保存方法のわずかな違いは、モデルのトレーニング時に大きな頭痛の種になる可能性があります。 たとえば、製品が異なれば、同じフリー テキスト フィールドを異なる長さにトリミングしたり、データを異なる方法で匿名化したりして、データに矛盾が生じる可能性があります。 これらのソースの XNUMX つにほとんどマルウェアが含まれていて、別のソースに無害なパターンが含まれている場合、ML モデルは、切り捨ての長さに基づいてそれらを識別することを学習できます。
フリーテキストフィールドデータ
これは、対処するのが非常に難しいため、実際にはそれ自体でカテゴリに値します。 フリー テキスト フィールドは、タイプミス、スラング、ほぼ重複、大文字のバリエーション、スペース、句読点、およびその他の多くの矛盾に対処しなければならないため、データ エンジニアの悩みの種です。
一定の更新
最後に、データ ドリフトは、ML システムを設計する際に対処すべき重要な問題です。 モデルがトレーニングされると、新しい受信データの分布が変化するにつれて、時間の経過とともにますます不正確になります。 したがって、モデルの定期的な更新をスケジュールして、パフォーマンスが引き続き期待される制限内にあることを確認する必要があります。
たとえば、セキュリティ分野では、攻撃者が時間の経過とともに悪用や動作を変更し、脆弱性が発見されて修正されるため、多くの変動性が見られます。 これは、ML ソリューションのデータを選択、収集、クレンジングするために必要な一般的な手順の簡単な要約でした。 これらがすべて完了していれば、クリーンなデータ セットが利用できる可能性があります。 実験を開始できます。
[スターボックス=15]