تحلیل کردن (Modeling the problem) چیست؟
تاریخ انتشار:۱۱:۳۶ ۱۳۹۸/۹/۲۶

تحلیل کردن (Modeling the problem) چیست؟


براساس تعریف، مدل کردن مسئله، هنر فرموله کردن موضوع به شکلی کاملا واضح و مرحله به مرحله است.





معمولا یک گپ بین سوالات کسب و کار محور و سوالات علوم داده‌ای است. پر کردن این گپ یا به بیان بهتر "مدل" کردن مسئله جز وظایف دانشمند علم داده است. امروزه مشکل بر سر ابزار نیست. به عبارت دیگر مشکل اصلی و گلوگاه عدم دانش برنامه‌نویسی با پایتون یا R و یا شناخت نداشتن به الگوریتم‌های هوش مصنوعی نیست. اصلی ترین و ارزشمندترین نکته ترسیم و مشخص کردن مسئله و راه حل است. به بیان دیگر آنچه در مرحله Data Exploration یا همان کند و کاو در داده، انجام می‌گیرد.


مثالی برای شما می‌زنم. کارفرمای من یک فایل حاوی مشخصات خانه‌های شهر را به من می‌دهد. مشخصات حاوی کد پستی، آدرس، نام مالک، شماره کنتور آب، شماره شهربانی و میزان مصرف آب و برق و گاز است. کارفرما از من می‌خواهد تا سیستمی طراحی کنم که قیمت خانه را با تخمین خوبی تشخیص دهد. سوالاتی در ذهن من شکل می‌گیرد. به‌طور مثال آیا شماره کنتور، کد پستی، نام مالک، میزان مصرف آب، برق و گاز ارتباطی با قیمت ملک می‌تواند داشته باشد؟ آیا من باید به عنوان یک دانشمند داده به کارفرما جواب منفی بدهم و بگویم با این داده نمی‌توان راه به جایی برد؟ کمی جای تامل وجود دارد.



می‌دانیم که پارامترهای زیادی در قیمت ملک موثر است مانند کیفیت ساخت، سال ساخت، متراژ، محله و بسیاری دیگر. این اطلاعات در داده‌هایی که از کارفرما دریافت شده نیست. چه راهی را می‌توانم برای رسیدن به اطلاعات پیدا کنیم؟


امروزه داشتن کدپستی و آدرس با توجه به نقشه‌های شهری برای یافتن حدود دقیق جغرافیایی ملک کافی است. حتما این نقشه‌ها را در خودروهای دارای سرویس جی پی اس دیده‌اید. تمام بلوک‌های شهر با ذکر پلاک دقیق در این نقشه‌ها دیده میشود. حال با داشتن موقعیت جغرافیایی چه نکات مفیدی برای من قابل استخراج است؟ آیا می‌توانم فاصله ایستگاه اتوبوس، مترو، مرکز خرید، میدان تره‌بار و یا تعداد پارک‌های نزدیک موقعیت جغرافیایی مورد نظر را بیابم؟ پاسخ این سوال مثبت است. بله! نقشه‌های امروزی با داشتن امکانات گوناگون این نکته را میسر می‌سازند. ما با استفاده از نقشه گوگل تمام این مناطق را می‌توانیم شناسایی کنیم و فاصله‌ی هر نقطه تا این مکان‌ها را بیابیم. ما همچنین می‌توانیم فاصله محل مورد نظر را با نقاط بسیار شلوغ شهر بسینجیم؛ می‌توانیم ترافیک اطراف محل مورد نظر را در ساعات مختلف داشته باشیم. فاصله این نقطه با نقاط خوش آب و هوا و گران قیمت شهر نیز قابل استخراج است.


تمامی موارد ذکر شده در قیمت ملک تاثیر دارد. پس من با اطلاعاتی که توسط آن کارفرما ارائه شده می‌توانم کارهایی را انجام دهم. من می‌توانم سیستمی به کارفرما ارائه دهم که قیمت تقریبی هر متر مربع از ملک مسکونی را در منطقه‌ای خاص تخمین زده باشد.



مسئله شرح داده شده یک پروژه واقعی بوده است اما تمامی جزییات آن در این مثال ذکر نشده است. کارفرما متراژ و سال ساخت ملک را داشت، اما حاضر نبود قبل از اعتماد کامل، این داده‌ها را در اختیار دانشمند داده قرار دهد. در نهایت قیمت تقریبی ملک در یک منطقه از شهر، با فرموله کردن مقدار افت قیمت براساس سال ساخت و در نهایت متراژ ملک، بدست آمد و با توجه به بازخورد کارفرما این تخمین به واقیعیت بسیار نزدیک بود.


در شرح پروژه‌ی بالا، هیچ دغدغه‌ای در حیطه‌ی الگوریتم یادگیری ماشین، ابزار مورد استفاده، آمادگی داده‌ها و غیره مطرح نشد. فقط و فقط امکان‌سنجی پروژه و آنچه می‌شود از داده‌های ارائه شده استخراج کرد مطرح شد. شاید اگر دانش فنی و الگوریتمیک را کنار بگذاریم، بتوانیم بگوییم مهم‌ترین بخش هر پروژه داده محوری در مدل سازی مسئله خلاصه می‌شود. پس پیشنهاد بنده این است که تمام مسیر متخصص شدن در این علم را محصور به دانش فنی و تبحر خود در استفاده از ابزار نکنیم بلکه همزمان با فراگیری دانش فنی، تلاش کنیم "مدل ساز" متبحری بشویم.




منبع:nikamooz