در شکل ۴-۴، رنگهای متفاوت نشاندهندهی جریانهای ترافیکی مشاهده شده برای یک مسیر، در طول ۱۰ سایکل میباشد. مطابق با انتظار، مشاهده میشود که علیرغم وجود رِنجهای متفاوت نرخ ترافیکی مختص هر مسیر، همه آنها پیکهای واضحی را تجربه میکنند. غالب این پیکها بصورت پریودیک مشاهده میشوند و بطور تقریبی، عموم این رفتارها برای هر مسیر، در دامنهی محدود و مشخصی دیده میشود.
به منظور مشخص شدن زمان مربوط به رفتارهای مختلف، دو مرحله میانگینگیری بر روی جریانها انجام شد. در ابتدا، میانگینگیری بین تمام مسیرها انجام شد و سپس به جای ارائه دادهها در سطح دقیقه، میانگین هر ۶۰ دقیقه، یک نقطه را در نمودار نشان داد. بطور نمونه روند مشاهده شده در طول ۱۰ سایکل به طول ۱۰ ساعت از دادهی داده شده در نمودار(۱) نشان داده شده است.
شکل ۴-۵٫ ارائه دید دقیقتر در خصوص رفتار جریانهای ترافیکی مربوط به ۱۰ سایکل نمونه. محور افقی و عمودی به ترتیب نشاندهندهی زمان ونرخ ترافیکی میباشند. پریودهای اوج ترافیک (پیک) در طول ساعتهای اولیه سایکلها قابل مشاهده است و در نموداری جدا بزرگنمایی شده است. روند آورده شده مربوط به میانگین نرخ ترافیکی ۲۰ مسیر است.
با دقت در نمودارِ شکل(۴-۵) مشخص میشود که پیکهای تند در ساعتهای اولیه سایکلها رخ دادهاند. هرچند، با توجه به مصنوعی بودن پایگاه داده، زمان واقعی مرتبط با این رفتارها مشخص نیست، اما میتوان برای تفسیر آنها به توضیحاتی که در خصوص شبیه ساز این پایگاه داده، آورده شده، استناد کرد. با دقت در توضیحات مرتبط با شبیه ساز، نکات مفید زیر استخراج شد:
- همانطور که میدانیم روند مشابهی که در مورد وسایل نقلیه در طی روزهای مختلف دیده میشود، ایناست که رفتوآمدها و جابجاییها در ساعات ابتدائی روز شروع و اوج میگیرند و در ساعات پایانی شب، رفت و آمدها پایان مییابند و جایجاییهای تقریباً ناچیزی در طول شب صورت میگیرد. به منظور دقت در شبیه سازی و نزدیک شدن به واقعیت، اعمال این موارد نیز در TSF رعایت شده است. بدین صورت که، همانطور که در توضیحات شبیه ساز آمده است، بعد از هر سایکل، توزیع مبدأ و مقصدهای وسایل نقلیه بطور رندوم انتخاب و شبیه سازی از ابتدا شروع می شود. بنابراین، این سایکلها در این پایگاه دادهی مصنوعی میتوانند معادل با روزهای متفاوت در پایگاه داده های واقعی در نظر گرفته شوند.
- نکته قابل اشاره دیگر اینست که، همانطور که میدانیم و همچنین در تحقیقات مرتبط با این حوزه اشاره شده است، ساعتهای اوج ترافیکی، ساعتهای همزمان با شروع فعالیت های روزانه، همچون رفتن به سر کار، مدارس و … تعریف میشوند. همچنین، مسئله وقوع اوج ترافیک، تقریباً ۲ بار در طول روز تکرار می شود که بسته به کشور و شهر و فرهنگ آنها، ساعتهای رخداد آنها متفاوت میباشند. بطور مثال در [۲۲] ساعتهای رخداد پیک صبحگاهی[۱۶۵](۶ تا ۹) و پیک عصر[۱۶۶] (۱۵:۳۰ تا ۱۸:۳۰) در نظرگرفتهشدهاست. همچنین در [۴۳] این ساعات به ترتیب (۸ تا ۹:۳۰) و (۱۶ تا ۱۸) ، در [۴۴] پیک صبحگاهی (۶ تا ۱۰) و در دیگر تحقیقات این پریود (۷:۱۵ تا ۹:۱۵) گزارش شدهاند. هرچند وجه مشترک همهی جریانهای ترافیکی، وقوع ۲ بار اوج ترافیکی است که به ساعات هجوم[۱۶۷] مشهورند (صبح و عصر) . بنابراین در طی ۲۴ ساعت معمولاً دو پیک در رفتار جریانهای ترافیکی مشاهده می شود. هرچند، دادهی مورد بررسی حاصل اجرای سایکلهای به طول ۱۰ساعت هستند، بنابراین احتمال وجود ۱ پیک در طول بازه ۱۰ ساعته، مطابق با انتظار است. چرا که در دادههای واقعی نیز غالباً، فاصلهی شروع پیک صبحگاهی تا پیک عصر، بیش از ده ساعت میباشد. مطابقاً در نمودار (۴-۵) نیز در طی یک سایکل، یک پیک مشاهده می شود.
مرحله پیش پردازش و استخراج ویژگی
همان طور که در قسمت توضیح پایگاه داده، اشاره شد، داده های نرخ ترافیکی در بازههای ۱-دقیقهای ثبت شدهاند. هرچند ارائه داده در این سطح، علاوه بر افزایش بُعد منجر به نوسانات رفتاری شدید و جریانهای ترافیکی می شود (این موضوع نیز در نمودار (۴-۴) به وضوح دیده میشود). از طرف دیگر، در اکثر تحقیقات، دادهها در غالب بازههای ۳-دقیقهای یا بازههای طولانیتر ارائه شدهاند. بنابراین یک مرحله گردآمدگی نیاز است، تا داده ها به بلاک های طولانیتر تبدیل شوند [۱۹]. در تعیین سایز گردآمدگی باید نکاتی لحاظ شود. در واقع سایز گردآمدگی باید بقدری طولانی باشد که منجر به اطلاعات تکراری نشود، اما طول آن نباید بقدری بزرگ باد که موجب از بین رفتن اطلاعات مفید شود. در طی آزمایشات مختلف، مرحلهی گردآمدگی با سایزهای ممکن انجام شد که از میان آنها سایز ۱۰ و ۱۵-دقیقهای کارآیی بهتری نسبت به دیگر سایزها داشت. به بیانی دقیقتر، هر ۱۰ یا ۱۵ رکورد (دقیقه)های پشت سر هم با هم جمع بسته شده ودر غالب یک رکورد یا بردار نمایش داده میشوند.
در نهایت، با اعمال این مرحله بطور نمونه میتوان، دادههای هر یک ساعت را با ۶ رکورد به جای ۶۰ رکورد نمایش داد. در نموادر شکل (۴-۶) نمایی از این مرحله را میبینیم.
شکل ۴-۶٫ نمایش نمادین روند انجام مرحله گردآمدگی با سایز نمونهی ۱۰-دقیقهای. در این مرحله، جلوگیری از افزایش بُعد و رفتارهای نوساناتی شدید که حاوی اطلاعات مفید نیستند.
پس از اعمال پیش پردازش با هدف کاهش بُعد، لازم است برای آموزش مدل از داده های موجود، خصیصه[۱۶۸] استخراج کنیم. در این راستا از هر پنجرهی ۶۰-دقیقهای مربوط به دادههای آموزشی، نیم ساعت اول به منظور ساختن بردار خصیصهها و نیم ساعت دوم برای ساختن بردار هدف در نظر گرفته می شود. همانطور که مشخص است، از ۶ بردار حاصل از گردآمدگی داده های یک ساعت، بردار پنجم که جمع رکوردهای ۴۱-۵۰ است، بعنوان بردار هدف و بردار اول، دوم و سوم بعنوان بردارهای خصیصه در نظر گرفته میشوند. از آنجا که بطور معمول یک نمونهِ آموزشی، تحت تنها یک بردار ارائه می شود، پس بردار یکم و دوم و سوم را به دنبال هم قرار داده و یک بردار ویژگی ۶۰ =۲۰×۳ مقداری تشکیل میدهیم. فرمت بردارهای هدف و خصیصه را در غالب فرمولهای (۴-۵) و (۴-۶) به ترتیب میبینیم.
(۴-۵)
(۴-۶)
بدین ترتیب، اگر همین روند را بر روی داده های هر ساعت دنبال کنیم و از هر ساعت یک نمونه آموزشی استخراج کنیم، از کل مجموع داده های آموزشی که ۱۰۰ سایکل ۱۰-ساعته بود، ۱۰۰۰ نمونه حاصل خواهد شد. بدین طریق، ماتریس خصیصهی X یک ماتریس ۶۰×۱۰۰۰ و ماتریس هدف Y یک ماتریس ۲۰×۱۰۰۰ خواهد بود که هر ستونِ آن معادل با نرخ ترافیک در خیابان معادل آن ستون است.
مرحلهی پیش پردازش (شامل کاهش بُعد و استخراج خصیصه) نیز با همین روند، بر روی داده های خام آزمایشی نیز اعمال شده است. در واقع از هر پنجره ۳۰-دقیقهای، ۳ بردار (رکورد) حاصل و یک نمونهی آزمایشی ۶۰ =۲۰×۳ بدست می آید. بدین ترتیب، ۱۰۰۰ پنجره ۳۰ دقیقهای آزمایشی، منجر به تشکیل ۱۰۰۰ نمونهی آزمایشی خواهند شد.
مرحله تقسیم بندی به context های مختلف
در مراحل ابتدایی به بررسی رفتار جریانهای ترافیکی قبل از انجام پیش پردازشها و نمونه برداری از دادهها، پرداختیم و روند تغییرات ما را به این نتیجه رساند که در مدلسازیها، از تأثیر تغییرات این روندها استفاده کنیم. آنچه واضح است این است که مدلهای نهایی روی مشاهدات (نمونههای) حاصل از مرحله پیشپردازش آموزش داده خواهند شد، بنابراین اعمال نتایج بررسی رفتارها، عملاً در این فاز باید تزریق شود که در این راستا، مرحله گروهبندی مشاهدات اعمال خواهد شد. طبیعتاً اساس گروهبندی بر مبنای شباهت رفتاری جریانها، صورت میگیرد.
آنچه در ابتدای گروه بندی لازم به تعیین است، مشخص کردن تعداد گروه ها میباشد. بطور معمول در دیگر تحقیقات یک فاز کلاستربندی بصورت کامل انجام میشود که منجر به تولید تعداد زیادی گروه میشود و معمولاً در هر گروه مشاهدات ۱-ساعتی یا نیم ساعتی مشابه قرار میگیرند. اعمال مشابه این روند و قرار دادن مشاهدات یک ساعتی در گروهها در خصوص داده مورد استفاده، در نهایت منجر به تولید ۱۰ گروه میشد. هرچند آزمایشات نشان داد، که تنها متمایز کردن مشاهدات مربوط به ساعات اوج پیک از دیگر مشاهدات کافیست و نتایج بهتری با در نظرگرفتن تنها ۲ context، بدست خواهد آمد. در واقع همانطور که در شکل میبینیم، تقریباً در همه خیابانها، پیک اول در ساعتهای یکسانی وجود دارد. هرچند رفتارهای مشابه دیگری نیز در ساعتهای بعدی مشاهده می شود، اما در خیابانهای مختلف در ساعات مختلف رخ میدهد. بنابراین به این نتیجه رسیدیم که مشاهدات مربوط به ساعات اولیه سایکلها که مربوط به پریود اوج پیک میشوند را در یک گروه و مشاهدات ۹ ساعت باقیمانده از سایکلها را در یک گروه قرار دهیم.
در مورد داده های آموزشی، چون داده ها از اجرای ۱۰-ساعت پشت سر هم بوجود آمده اند، لذا جدا کردن ساعات اولیه سایکلها به سادگی صورت میگیرد. اما از آنجا که داده های آزمایشی مستقل هستند و ترتیب آنها و اینکه متعلق به کدام ساعت از اجرای سایکلها هستند، مشخص نیست، لازم است تا معیار شباهت مناسبی تعیین شود تا قادر به متمایز کردن و مشخص کردن تعلق مشاهدات بهcontext های مختلف باشد. همان طور که میدانیم تعیین معیار سنجش فاصله مناسب به (۱) ماهیت دادهی و (۲) مسئله مورد بررسی، بستگی دارد که برای تعیین این موضوع، آزمایشاتی صورت گرفت و قابلیت معیارهای سنجش فاصله مختلف، بر روی جریانهای ترافیکی بررسی شد.
نتایج حاصل حاکی از آن بود که، بر خلاف آنکه از جمله خصوصیات مطلوب یک معیار سنجش فاصله در اکثریت کاربردها، حساس نبودن آن معیار نسبت به مسئله شیفت[۱۶۹] است، اما در این مسئلهی بخصوص، (۱) معیار مناسب باید نسبت به مسئله شیفت حساس باشد. در واقع از آنجا که هدف این مرحله تمیز دادن مشاهدات مربوط به پریود پیک و غیرپیک است و تفاوت این مشاهدات نرخ ترافیکی متفاوت میباشد، پس اگر معیار مورد استفاده به مسئله شیفت حساسیت نداشته باشد، قادر به متمایز کردن مشاهدات این دو context نمی باشد. بعنوان مثال، در نمودار الف از شکل (۴-۷) ،پترنهای (مشاهدات) ۱ و ۲ به نظر یکسان میرسند، هرچند معیار مورد استفاده نباید آنها را در یک context قرار دهد.