|
تاریخ انتشار:۱۱:۳۶ ۱۳۹۸/۹/۲۶
تحلیل کردن (Modeling the problem) چیست؟
براساس تعریف، مدل کردن مسئله، هنر فرموله کردن موضوع به شکلی کاملا واضح و مرحله به مرحله است.
معمولا یک گپ بین سوالات کسب و کار محور و سوالات علوم دادهای است. پر کردن این گپ یا به بیان بهتر "مدل" کردن مسئله جز وظایف دانشمند علم داده است. امروزه مشکل بر سر ابزار نیست. به عبارت دیگر مشکل اصلی و گلوگاه عدم دانش برنامهنویسی با پایتون یا R و یا شناخت نداشتن به الگوریتمهای هوش مصنوعی نیست. اصلی ترین و ارزشمندترین نکته ترسیم و مشخص کردن مسئله و راه حل است. به بیان دیگر آنچه در مرحله Data Exploration یا همان کند و کاو در داده، انجام میگیرد.
مثالی برای شما میزنم. کارفرمای من یک فایل حاوی مشخصات خانههای شهر را به من میدهد. مشخصات حاوی کد پستی، آدرس، نام مالک، شماره کنتور آب، شماره شهربانی و میزان مصرف آب و برق و گاز است. کارفرما از من میخواهد تا سیستمی طراحی کنم که قیمت خانه را با تخمین خوبی تشخیص دهد. سوالاتی در ذهن من شکل میگیرد. بهطور مثال آیا شماره کنتور، کد پستی، نام مالک، میزان مصرف آب، برق و گاز ارتباطی با قیمت ملک میتواند داشته باشد؟ آیا من باید به عنوان یک دانشمند داده به کارفرما جواب منفی بدهم و بگویم با این داده نمیتوان راه به جایی برد؟ کمی جای تامل وجود دارد.
میدانیم که پارامترهای زیادی در قیمت ملک موثر است مانند کیفیت ساخت، سال ساخت، متراژ، محله و بسیاری دیگر. این اطلاعات در دادههایی که از کارفرما دریافت شده نیست. چه راهی را میتوانم برای رسیدن به اطلاعات پیدا کنیم؟
امروزه داشتن کدپستی و آدرس با توجه به نقشههای شهری برای یافتن حدود دقیق جغرافیایی ملک کافی است. حتما این نقشهها را در خودروهای دارای سرویس جی پی اس دیدهاید. تمام بلوکهای شهر با ذکر پلاک دقیق در این نقشهها دیده میشود. حال با داشتن موقعیت جغرافیایی چه نکات مفیدی برای من قابل استخراج است؟ آیا میتوانم فاصله ایستگاه اتوبوس، مترو، مرکز خرید، میدان ترهبار و یا تعداد پارکهای نزدیک موقعیت جغرافیایی مورد نظر را بیابم؟ پاسخ این سوال مثبت است. بله! نقشههای امروزی با داشتن امکانات گوناگون این نکته را میسر میسازند. ما با استفاده از نقشه گوگل تمام این مناطق را میتوانیم شناسایی کنیم و فاصلهی هر نقطه تا این مکانها را بیابیم. ما همچنین میتوانیم فاصله محل مورد نظر را با نقاط بسیار شلوغ شهر بسینجیم؛ میتوانیم ترافیک اطراف محل مورد نظر را در ساعات مختلف داشته باشیم. فاصله این نقطه با نقاط خوش آب و هوا و گران قیمت شهر نیز قابل استخراج است.
تمامی موارد ذکر شده در قیمت ملک تاثیر دارد. پس من با اطلاعاتی که توسط آن کارفرما ارائه شده میتوانم کارهایی را انجام دهم. من میتوانم سیستمی به کارفرما ارائه دهم که قیمت تقریبی هر متر مربع از ملک مسکونی را در منطقهای خاص تخمین زده باشد.
مسئله شرح داده شده یک پروژه واقعی بوده است اما تمامی جزییات آن در این مثال ذکر نشده است. کارفرما متراژ و سال ساخت ملک را داشت، اما حاضر نبود قبل از اعتماد کامل، این دادهها را در اختیار دانشمند داده قرار دهد. در نهایت قیمت تقریبی ملک در یک منطقه از شهر، با فرموله کردن مقدار افت قیمت براساس سال ساخت و در نهایت متراژ ملک، بدست آمد و با توجه به بازخورد کارفرما این تخمین به واقیعیت بسیار نزدیک بود.
در شرح پروژهی بالا، هیچ دغدغهای در حیطهی الگوریتم یادگیری ماشین، ابزار مورد استفاده، آمادگی دادهها و غیره مطرح نشد. فقط و فقط امکانسنجی پروژه و آنچه میشود از دادههای ارائه شده استخراج کرد مطرح شد. شاید اگر دانش فنی و الگوریتمیک را کنار بگذاریم، بتوانیم بگوییم مهمترین بخش هر پروژه داده محوری در مدل سازی مسئله خلاصه میشود. پس پیشنهاد بنده این است که تمام مسیر متخصص شدن در این علم را محصور به دانش فنی و تبحر خود در استفاده از ابزار نکنیم بلکه همزمان با فراگیری دانش فنی، تلاش کنیم "مدل ساز" متبحری بشویم.
منبع:nikamooz
|
|
|