چگونه یادگیری ماشینی را پایدار و متعادل نگه داریم


هدیه ای معمولاً مرتب بسته بندی می شود. با این حال ، داده ها بندرت هدیه ای است که با چنین دقت تهیه شود. در اینجا برخی از مفاهیم مربوط به نحوه تولید مدل های ML با داده های متعادل وجود دارد.

تصویر: Pixabay

تصویر: Pixabay

مجموعه داده ها ذاتاً کثیف هستند و در چنین اختلالی ، متخصصان فناوری اطلاعات برای حفظ کیفیت داده ها باید مجموعه داده ها را بررسی کنند. به طور فزاینده ای ، مدل ها عملیات تجاری را پیش می برند ، بنابراین تیم های فناوری اطلاعات از مدل های یادگیری ماشین در برابر کار با داده های نامتعادل محافظت می کنند.

مجموعه داده های نامتعادل شرایطی است که در آن یک مدل طبقه بندی قابل پیش بینی به اشتباه مشاهده را به عنوان یک کلاس اقلیت مشخص می کند. این زمانی اتفاق می افتد که مشاهدات با طبقه بندی که توسط مدل طراحی شده آزمایش می شود ، اما این آزمایش شامل مشاهدات بسیار کمی است که مدل با دقت پیش بینی اعوجاج کار می کند.

برای توضیح ، شرکتی را در نظر بگیرید که داده های 100 نمونه محصول را بررسی می کند. فرض کنید یک مدل مبتنی بر این داده ها پیش بینی می کند که 90 آستانه کیفیت مطلوب را برآورده می کند و 10 برابر نیست. این مدل 90٪ دقت در انتخاب محصولاتی دارد که با این ارزیابی مطابقت داشته باشند. با این حال ، این دقت این نسبت را به عنوان یک شرط بندی مطمئن که برای مجموعه داده های بعدی که مدل مورد استفاده قرار می گیرد ، قید می کند ، تلقی می کند.

نتیجه این “شرط بندی مطمئن” یک مدل مغرضانه با حس کاذب شناسایی داده است. این مدل مشاهدات را از یک مجموعه داده بزرگتر به درستی شناسایی نمی کند و با توجه به اندازه مجموعه داده ها ، شناسایی غلط را مقیاس می کند.

مجموعه داده های بزرگ

این وضعیت با مجموعه داده های سایز بزرگ تشدید می شود. این مجموعه های داده شامل چندین متغیر است که در برخی موارد تعداد متغیرها از تعداد مشاهدات بیشتر است. این طرح داده – جدول گسترده ای از متغیرها با مشاهدات اندک – به طور مشابه با مثال 90/10 طراحی شده است ، با تفاوت قابل توجهی در ویژگی های بیشتر (متغیرها). ابعاد بالا می تواند مدل را به سمت سوگیری نسبت به اکثریت تحت تأثیر قرار دهد.

چنین تعصبی می تواند عواقب اجتماعی داشته باشد ، مانند سیستم های تشخیص چهره که چهره سیاه را از روی تصاویر به خوبی تشخیص نمی دهند. این سیستم ها به دلیل ادامه تبعیض و نژادپرستی مورد انتقاد قرار گرفته اند ، زیرا تعصبات آنها می تواند منجر به دستگیری غیرقانونی و اتهامات کیفری دروغین توسط مقامات شود.

عملیات خرده فروشی نمونه هایی از دنیای واقعی را در مورد تأثیر تجاری مشترک داده های نامتعادل ارائه می دهد. یک بانک اطلاعاتی مشتری که اقلیت مشتری در آن اشتراك سرویس را می پذیرند ، می تواند بر چگونگی تشخیص خروجی مشتری برای محصولات و خدمات توسط یك مدل تأثیر بگذارد. خرید یا بازده کلاهبرداری مثالهای دیگری است که کلاسهای اقلیت برای تشخیص آنها خیلی کوچک است.

مستقیم ترین راه حل برای مجموعه داده های نامتعادل ، جمع آوری اطلاعات بیشتر است ، اما جمع آوری اطلاعات اضافی در هر مورد گزینه ای نیست. مشاهداتی که مجموعه داده ها را ایجاد می کنند ممکن است به دلیل یک واقعه یا سایر ملاحظات عملی محدود شوند. کاهش غیرمنتظره تولید محصول – مشابه سال گذشته به دلیل COVID-19 – مثال خوبی است.

استفاده از فیش

راه حل دیگر استفاده از امریه است. Attribution فرآیند اختصاص مقدار برای داده های از دست رفته توسط استنباط است. فرآیند محاسبه تغییرات مختلفی دارد. یکی از گزینه های انتساب ، انتخاب مجدد داده است. هنگام نمونه گیری مجدد ، تجزیه و تحلیل ممکن است یکی از دو کار را انجام دهد:

  • نسخه هایی از یک کلاس کم بازنمایی به نام نمونه برداری بیش از حد را اضافه کنید.
  • مشاهدات کلاس بیش از حد نمایان شده به نام نمونه برداری کم را حذف کنید.

هدف هر دو گزینه اصلاح تأثیر مشخصات داده های تنظیم شده با به حداقل رساندن تعصب در مدل است.

یک تکنیک جایزه پیشرفته ، روش انتخاب مجدد اقلیت مصنوعی (SMOTE) است. SMOTE به جای تکرار یا تصحیح مورد استفاده در نمونه گیری مجدد ، نمونه های مصنوعی محاسبه شده از کلاس دوم را ایجاد می کند. این مشاهدات بیشتری را بدون افزودن ویژگی هایی ارائه می دهد که می تواند منفی مدل باشد. SMOTE یک محاسبه را برای نزدیکترین همسایه در یک جفت مشاهدات کلاس اقلیت اعمال می کند و سپس مشاهدات اضافی را از آن محاسبه ایجاد می کند. فرآیند نمونه برداری تکرار می شود تا زمانی که تمام جفت مشاهدات با محاسبه نزدیکترین همسایه ارزیابی شود.

R دارای کتابخانه ها و بسته های پایتون است که برای پیاده سازی SMOTE در یک برنامه طراحی شده است. مهم نیست که از کدام زبان برنامه نویسی استفاده می کنید ، یک رویکرد کلی وجود دارد که می تواند برای بررسی مجموعه داده ها برای عدم تعادل احتمالی استفاده شود. ابتدا مشاهداتی را که در کیت آموزش برای مدل وجود دارد ، انتخاب کنید. سپس یک ردیف خلاصه در برنامه ایجاد کنید تا تأیید کنید کلاسهای نمونه ایجاد شده اند. آخرین مرحله یک مرحله تضمین کیفیت است ، و یک تصویر پراکنده ایجاد می کند تا ببینید آیا کلاس ها حس بصری دارند.

روشهای دیگری برای بررسی عدم تعادل کلاس در داده ها با بررسی نتایج مدلهای یادگیری ماشین وجود دارد. تحلیلگران می توانند عملکرد یک مدل را بررسی کنند یا نتایج چندین مدل را بر روی داده های مشابه مقایسه کنند تا مشخص کنند کدام مدل کلاس اقلیت را به بهترین وجه طبقه بندی و درمان می کند. تکنیکی به نام مدل های مجازات شده هزینه های مدل را به خطاهای کلاس تحمیل می کند. این به شما کمک می کند تا یاد بگیرید کدام مدل ها می توانند بیشترین تأثیر مخرب یک راه حل را داشته باشند.

نکته اصلی ایجاد مقایسه ای از مجموعه داده ها قبل و بعد از فرآیند انتساب است. تحلیلگران داده و تیم های IT باید به آشنایی خود با داده های انتخاب شده اعتماد کنند تا بدانند طبقه بندی چه منطقی دارد.

تصحیح داده های نامتعادل یک هدیه برای تیمی است که وظیفه دارند مدل یادگیری ماشین را در تولید حفظ کنند.

این مقالات یادگیری ماشین را دنبال کنید:

همه گیری سرعت بخشیدن به یادگیری ماشین است

اتوماسیون و آموزش فرایندهای تجاری با جمهوری اسلامی ، AI و ML

هوش مصنوعی و یادگیری ماشین: راهنمایی برای شرکت

Pier DeBois بنیانگذار Zimana ، یک شرکت مشاوره تجزیه و تحلیل کسب و کار کوچک است که داده های راه حل های تجزیه و تحلیل وب و داشبورد رسانه های اجتماعی را بررسی می کند ، سپس توصیه ها و اقداماتی را برای توسعه وب ارائه می دهد که استراتژی بازاریابی و سودآوری تجارت را بهبود می بخشد. او … بیوگرافی کامل را ببینید

ما از نظرات شما در مورد این موضوع در کانال های رسانه های اجتماعی خود استقبال می کنیم [contact us directly] با س questionsالات در مورد سایت.

بینش بیشتر




منبع: tasiveh-news.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>