شکل ۲-۶ خوشهبندی توافقی با بهره گرفتن از بردارهای جدید بدست میآید. πi(xj) شماره خوشه داده xj در خوشهبندی i را مشخص میکند [۶۸].
لازم به ذکر است که روشهای شباهت محور، روشهای اطلاعات دوجانبه و روشهای مدل ترکیبی به مسئله نظیر به نظیر بودن خوشهها در خوشهبندیهای مختلف توجهی ندارند. در حقیقت این روشها به گونهای عمل میکنند که نیازی به تعیین این تناظر وجود ندارد. این روشها خوشهایی که دارای شماره یکسان و یا برچسب مشابه باشند را متناظر در نظر میگیرند. اما در اغلب روشهای رأی محور، به مسئله تشخیص تناظر بین خوشهها در خوشهبندیهای مختلف به طور مستقیم پرداخته میشود [۶]. الگوریتم پیشنهادی در این پایان نامه نیز یک روش رأی محور محسوب میگردد. در [۶۵،۷۱،۵۷] مسئلهی خوشهبندی توافقی به روش رأی گیری حل میشود. در رساله دکتری Ayad [6] چند الگوریتم خوشهبندی توافقی بر اساس روش رأی گیری ارائه شده است. در [۶۵] جهت ترکیب خوشهبندیها الگوریتم PV[98] ارائه شده است. روش ارائه شده در [۶۵]، مسئلهی تشخیص تناظر بین خوشهها را با استفاده برچسب گذاری مجدد[۹۹] آنها حل میکند. در [۷۱] روشی معرفی شده است که بر اساس آن داده به خوشهای در خوشهبندی نهایی نسبت داده میشود که بیشترین رأی به آن داده شود. اگر تعداد خوشههای بدست آمده در خوشهبندی نهایی بیش از تعداد خوشههای مطلوب (یا تعیین شده توسط کاربر) باشد، خوشههای مشابه در هم ادغام میشوند.
در [۵۷] دو روش IVC[100] و IPVC[101] بر مبنای رأی گیری مطرح شده است. این دو روش در [۵۷] با یازده الگوریتم خوشهبندی توافقی مورد مقایسه قرار گرفتهاند. نتایج این مقایسه بیانگر آنست که این روشها و بویژه روش IVC از کارآیی مناسبی در ترکیب خوشهبندیها برخوردارند. الگوریتم پیشنهادی در این پایان نامه بر اساس الگوریتم IVC عمل میکند. در حقیقت الگوریتم ارائه شده در این پایان نامه، نسخه بهبود یافتهای از IVC میباشد که خوشهبندی توافقی را به صورت وزنی انجام میدهد.
۲-۳-۵- روشهای توافقی شباهت محور
در این بخش به ارائه جزئیات دقیقتری از روشهای شباهت دوبهدو (یا روشهایی که از ماتریس همبستگی استفاده میکنند) و روشهای گراف محور میپردازیم.
شباهت دوبهدو (ماتریس همبستگی)
ماتریس همبستگی، پایه و اساس روشهای شباهت محور است. یکی از مزایای مهم استفاده از آن، عدم نیاز به تشخیص نظیر به نظیربودن خوشهها در خوشهبندیهای اولیه میباشد. استفاده از ماتریس همبستگی دارای معایبی نیز میباشد، اول اینکه پیچیدگی محاسباتی آن حداقل O(N2) است و دوم اینکه نگهداری این ماتریس به فضای زیادی نیاز دارد. از اینرو استفاده از ماتریس همبستگی برای مجموعههای دادهای بزرگ نامناسب است. همانطور که در قبل اشاره شد هر عنصر ماتریس همبستگی، نرخ تعداد خوشهبندیهایی است که یک جفت داده با هم در یک خوشه از آن خوشهبندی قرار گرفتهاند. هر عنصر این ماتریس را میتوان از رابطهی (۲-۲) محاسبه نمود. در رابطهی (۲-۲) یک تابع نشانگر[۱۰۲] است که در صورت برقراری تساوی ۱ و در غیر اینصورت صفر بر میگرداند.
(۲-۲)
Gionis و همکارانش روشی را بر مبنای شباهت دوبهدو پیشنهاد نمودهاند. الگوریتم پیشنهادی آنها از نوع الگوریتمهای تقسیم کننده است و به صورت بالا به پایین عمل میکند. الگوریتم ابتدا تمام اشیاء داده را در یک خوشه قرار میدهد. سپس جفت دادههایی را که بیشترین فاصله را نسبت به هم دارند را مییابد و آنها را دو خوشهی متفاوت قرار میدهد. این دو داده به عنوان مرکز خوشههای ایجاد شده در نظر گرفته میشوند. دیگر دادهها نیز بین این دو خوشه به خوشهای نسبت داده میشوند که کمترین فاصله را با مرکز آن خوشه داشته باشند. به عبارت دیگر این گامها در هر مرحله تکرار میشوند: ۱) ایجاد یک مرکز خوشهی جدید که بیشترین فاصله را با مراکز خوشههای موجود دارد، ۲) تخصیص دادهها به خوشهای که کمترین فاصله را با مرکز آن خوشه دارند. در انتهای هر مرحله، هزینهی خوشهبندی جدید محاسبه میگردد. اگر هزینهی آن کمتر از هزینهی خوشهبندی قبلی (مرحله قبل) بود، الگوریتم ادامه مییابد. در غیر اینصورت خوشهبندی بدست آمده در مرحله قبل به عنوان خروجی الگوریتم ارائه میشود. پیچیدگی این الگوریتم O(MN2) برای ساخت ماتریس همبستگی و O(K2N) برای اجرای الگوریتم میباشد، که M تعداد خوشهبندیهای اولیه، N تعداد دادهها و K تعداد خوشهها در خوشهبندی نهایی است.
الگوریتم FC که در [۲۳] پیشنهاد شده است زمانی که اجتماع اولیه خوشهبندی شامل تعداد زیادی خوشهبندی باشد و همچنین مجموعهی دادهها بزرگ باشد کارایی مناسبی در ترکیب خوشهبندیها نخواهد داشت. البته اغلب روشهایی که از ماتریس همبستگی استفاده میکنند همانطور که پیشتر نیز به آن اشاره شد دارای مرتبه زمانی درجه دو میباشد که این مسئله در مجموعههای دادهای بزرگ میتواند مشکل ساز باشد. روش متداولی که به طور معمول جهت کاهش زمان اجرا به کار میرود، نمونه برداری[۱۰۳] از دادهها میباشد. این کار باعث کاهش حجم دادهها میگردد اما میتواند کیفیت خوشههای تولید شده را نیز تحت تأثیر قرار دهد. از طرف دیگر نکته مثبت در الگوریتم پیشنهادی آنها این است که نیازی به تعیین تعداد خوشهها در خوشهبندی نهایی نمیباشد. الگوریتم پیشنهادی آنها با توجه به هزینهی محاسبه شده در انتهای هر تکرار متوقف شده و یا ادامه مییابد. در هر بار تکرار یک خوشهی جدید تولید میشود بنابراین پس از پایان الگوریتم K خوشه بوجود آمده است که مقدار K از قبل تعیین نشده بود.
در [۷۳]، Fern و Brodley جهت ترکیب خوشهبندیها از یک الگوریتم خوشهبندی تجمیع کننده (HAC) استفاده کردهاند. این الگوریتم به صورت پایین به بالا عمل میکند. ابتدا هر داده در یک خوشهی مجزا قرار میگیرد. سپس با بهره گرفتن از ماتریس همبستگی، شبیهترین خوشهها پیدا شده و در هم ادغام میشوند. این فرایند تا زمانی تکرار میشود که تعداد خوشههای بدست آمده برابر تعداد خوشهها مورد نظر شود. به عبارت دیگر این الگوریتم زمانی پایان مییابد که K خوشه باقی بماند. شباهت بین هر دو خوشه نیز از رابطهی (۲-۳) محاسبه میگردد.
(۲-۳)
الگوریتم ارائه شده در [۷۳] جهت خوشهبندی مجموعههایی با تعداد صفات خاصه (ابعاد) زیاد میباشد. در روش مطرح شده تصویرهای تصادفی از دادهها انتخاب شده و سپس هر یک جهت تولید اجتماع اولیه خوشهبندیها، خوشهبندی میشوند. یکی از مسائل موجود در روش آنها اینست که تعداد صفات خاصهای که در هر تصویر انتخاب میشود، چقدر باشد. Fern و Broadly این تعداد را پنج در نظر گرفتهاند. در الگوریتم پیشنهادی آنها تعداد خوشهها نیز باید به عنوان پارامتر به الگوریتم ارسال گردد.
Fred وJain یک روش خوشهبندی انباشتگر مدرک (ٍEAC) را جهت ترکیب اجتماع خوشهبندیها معرفی کردهاند. در روش آنها هر یک از خوشهبندیهای اولیه به عنوان یک مدرک در نظر گرفته میشود. مقادیر ماتریس همبستگی با بهره گرفتن از نوعی مکانیزم رأیگیری (یا جمع آوری مدارک) بدست میآیند. خوشهبندی نهایی نیز با بهره گرفتن از یک الگوریتم تجمیع کنندهی سلسله مراتبی بر روی ماتریس همبستگی تولید میشود. تعداد مناسب خوشهها، همانطور که در شکل ۲-۷ نشان داده شده است، بر مبنای دوره زندگی خوشه[۱۰۴] تعیین میگردد. Fred وJain ، دوره زندگی K-خوشه را برحسب بازهی مقادیر آستانهای[۱۰۵] بر روی نمودار درختی تعریف کردهاند، که در نهایت منجر به تعیین تعداد مناسب خوشهها (K) میشود. دورههای زندگی ۲-خوشه، ۳-خوشه و ۴-خوشه در شکل ۲-۷ به ترتیب با l2، l3 و l4 نشان داده شده است. به عنوان مثال، دورهی زندگی ۳-خوشه، l3=0.3600 است که از تفاضل بین مقادیر آستانهای کمینه (۰٫۴) و بیشینه (۰٫۷۶) که سبب تشکیل سه خوشه شده است، محاسبه میگردد. با توجه به شکل ۲-۷ تعداد خوشهها، ۳ در نظر گرفته میشود، زیرا بیشترین دوره زندگی (l3) را ۳-خوشه دارا میباشد.
یکی از مزایای مهم الگوریتم ذکر شده، قابلیت تشخیص خوشههایی با اشکال متفاوت و اندازههای مختلف است. چرا که بسیاری از الگوریتمهای خوشهبندی، تنها قادر به یافتن خوشههایی به شکل کروی و اندازههای برابر میباشند. الگوریتم EAC به صورت پیوند منفرد[۱۰۶] (SL) میزان شباهت بین هر دو شئ داده را مییابد. اما جهت کاهش مرتبه زمانی و مکانی ایجاد ماتریس همبستگی، به جای نگهداری یک ماتریس N×N یک ماتریس تشابه N×P استفاده میشود که برای هر شئ داده، P نزدیکترین همسایه[۱۰۷] محاسبه و نگهداری میشود. این عملکرد سبب میشود تا الگوریتم EAC برای مجموعههای دادهای بزرگ نیز کارآیی مناسبی داشته باشد.
شکل ۲-۷ نمودار درختی تولید شده با بهره گرفتن از الگوریتم خوشهبندی تجمیع کننده و ماتریس همبستگی. با توجه به نمودار درختی، دورههای زندگی خوشهها عبارتند از: ۲-خوشه، l2=0.18؛ ۳-خوشه، l3=0.36؛ ۴-خوشه،l4=0.14؛ ۵-خوشه،l5=0.02. بیشترین دورهی زندگی مربوط به ۳-خوشه میباشد. بنابراین تعداد خوشهها سه در نظر گرفته میشود [۴۷].