「データクレンジング」は、混在する表記法を統一し、データの品質を向上させる取り組みを指す言葉です。この取り組みは通常、データの利用前に行われます。
データの利用にあたり重要なのは、それを適切に活用するための状態にすることです。しかし、企業が扱うデータは常にその状態とは限らず、例えば、電話番号や郵便番号で半角数字と全角数字が混在していたり、「株式会社」や「(株)」の表記法が混在していたり、「1丁目2番地3号」と「1-2-3」のように住所表記が混在しているなど、様々な問題を抱えていることがあります。
そこでデータクレンジングが行われ、既定のルールに基づいてこれらの混在した表記を統一します。これにより、データの品質を向上させ、より扱い易い状態にすることが可能となるのです。