Artificial Intelligence - هوش مصنوعی - داده کاوی توزيع شده

داده کاوی توزيع شده

دادهکاوی توزيع شده عبارت است از کشف نيمه خودکار الگوهای پنهان موجود در دادهها، در حالتی که دادهها و يا مکانيزمهای استنتاج، به صورت توزيع شده باشند. غيرمتمرکز بودن دادهها بدان معناست که دادهها به صورت توزيع شده بين دو يا چند سايت بوده و هزينه انتقال تمام يا بخشی از دادهها به يک سايت مرکزی، قابل صرفنظر نباشد. توزيع شده بودن مکانيزمهای استنتاج، به معنای لزوم لحاظ کردن هزينه ارتباط بين مکانيزمهای مختلف در حال استخراج دانش میباشد. اين توزيع شدگی ممکن است به دلايل مختلفی از جمله ارائه شدن مکانيزم استخراج دانش در قالب يک سرويس اينترنتی و يا صرفا ناشی از توزيع شدگی دادهها باشد. چنين رويکردی به دادهکاوی، برخلاف جهت کلی تحقيقات انجام شده است که به طور عمده به تکنيکهای متمرکز پرداخته و نه فقط بر تمرکز، که بر همگونی و ساختار مسطح (در مقابل ساختار رابطهای) دادههای هدف متکی میباشند. مسائلی نظير استخراج دانش در حالت عدم دسترسی به تمام دادههای موجود، برقراری ارتباط موثر و بهينه با ساير مکانيزمهای در حال استخراج دانش و نيز تبادل دانش يا اطلاعات ميانی به جای اطلاعات خام، فقط تعدادی از مسائل اوليه دادهکاوی توزيع شده با توجه به تعريف آن میباشند. بنابراين، دادهکاوی توزيع شده در عين حال که به عنوان راه حلی کليدی برای مشکلات اصلی پيش روی دادهکاوی مطرح میباشد، خود سرمنشاء چالشها و مسائل متعددی گرديده است؛ حل مؤثر اين مشکلات منجر به استفاده هرچه بيشتر از دادهکاوی و ايجاد امکانات جديد و بهرهبرداری از پتانسيلهای موجود در قلمروهائی خواهد شد که عليرغم نياز مبرم به دادهکاوی، استفاده بسيار محدودی از آن به عمل میآورند. بحث دادهکاوی توزيع شده بطور کلی از دو جهت قابل بررسی میباشد. اول حالتی که در آن دادهها بصورت همسان بين پايگاههای مختلف توزيع شدهاند و دادههای هر پايگاه تمام خصوصيات را دارا هستند. در اينحالت دادهها ممکن است ذاتا توزيع شده باشند و يا اينکه دادهها متمرکز بدلايل امنيتی يا ... بين پايگاههای مختلف تقسيم شده باشند. اصطلاحا به اين حالت تقسيم شدن، تقسيم شده بصورت افقی (Horizontally Partitioned) نيز گفته میشود که ما نيز در فاز دوم پروژه گونهای از اين نوع توزيع شدگی را خواهيم ديد. حالت دوم حالتی است که در آن دادههای موجود در هر پايگاه داده دارای خصوصيتهای مختلف میباشند. معمولا در اين موارد دادهها خود بين پايگاههای مختلف تقسيم گرديدهاند و ذاتا توزيع شده نيستند. از اينرو به اينحالت تقسيم شده عمودی (Vertically Partitioned) نيز گفته میشود. برای ايجاد ارتباط بين خصوصيتهای مختلفی که در پايگاههای مختلف نگهداری میشوند اما متعلق به يک داده هستند، معمولا يک خصوصيت مشترک که بعنوان شناسه مورد استفاده قرار میگيرد، بين تمام پايگاههای مختلف نگهداری میشود که رکوردهای مختلف را بهم ارتباط میدهد. در دادهکاوی توزيع شده نيز مساله کشف و استخراج دانش مشابه دادهکاوی عادی در زمينههای خوشهبندی توزيع شده، کشف قواعد وابستگی بصورت توزيع شده و طبقهبندی توزيع شده (که با نام يادگيری توزيع شده طبقهبند هم از آن نام برده میشود) مورد تحقيق و بررسی قرار دارد،. ضمن اينکه در بحث دادهکاوی توزيع شده، مساله مربوط به محرمانگی دادهها (Privacy Preserving) حتما بايد مدنظر قرار گيرد.

منبع