عنوان مقاله
پاکسازی داده، مسائل و شیوه های فعلی
فهرست مطالب
مقدمه
مسائل پاکسازی داده
شیوه های پاکسازی داده
حمایت ابزاری
نتیجه گیری
بخشی از مقاله
مسائل تک منبعی
کیفیت داده منبع به میزان کنترل آن توسط طرح و محدودیت های یکپارچگی کنترل کننده ارزش داده های مجاز بستگی دارد. برای منابع فاقد طرح، مانند فایل ها، محدودیت های کمی برای ورود و ذخیره وجود دارد، و همین امر احتمال بروز خطا و ناهمسانی را افزایش می دهد.
مسائل خاص نمونه به خطاها و ناهمسانی هایی بستگی دارند که در سطح طرح از وقوع آنها نمی توان جلوگیری نمود ( مثلاً غلط املایی). در مورد مسائل و مشکلات سطح نمونه و طرح ، می توان حیطه های مختلف را از هم تفکیک نمود:مشخصه (میدان)، رکورد، تیپ رکورد و منبع.
کلمات کلیدی:
Data Cleaning: Problems and Current Approaches Erhard Rahm∗ Hong Hai Do University of Leipzig, Germany http://dbs.uni-leipzig.de Abstract We classify data quality problems that are addressed by data cleaning and provide an overview of the main solution approaches. Data cleaning is especially required when integrating heterogeneous data sources and should be addressed together with schema-related data transformations. In data warehouses, data cleaning is a major part of the so-called ETL process. We also discuss current tool support for data cleaning. 1 Introduction Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. Data quality problems are present in single data collections, such as files and databases, e.g., due to misspellings during data entry, missing information or other invalid data. When multiple data sources need to be integrated, e.g., in data warehouses, federated database systems or global web-based information systems, the need for data cleaning increases significantly. This is because the sources often contain redundant data in different representations. In order to provide access to accurate and consistent data,