یافتن پیش بینی های بزرگ یادگیری ماشین


برنامه ریزی مدل داده نحوه استفاده از متغیرها را به وضوح منعکس می کند. چندین تکنیک مانند تجزیه و تحلیل عامل می تواند به تیم های فناوری اطلاعات کمک کند تا ابزارهای موثر مدیریت مدل را توسعه دهند. این چگونه است.

برنامه ریزی مدل های یادگیری ماشین اغلب به معنای یافتن راه هایی برای اصلاح تعداد متغیرهایی است که داده ها را در آن مدل وارد می کند. این زمان تجزیه و تحلیل را کاهش می دهد. یکی از گزینه هایی که برای تأثیرگذاری تجزیه و تحلیل خود باید به خاطر داشته باشید ، تحلیل عاملی است. انتخاب صحیح تحلیل عاملی می تواند تایید کند که آیا یک مدل ساده می شود.

تصویر: Gorodenkoff - stock.adobe.com

تصویر: Gorodenkoff – stock.adobe.com

تحلیل عاملی فرایندی آماری برای بیان متغیرها از طریق متغیرهای نهفته به نام فاکتورها است. فاکتورها دو یا چند متغیر هستند که به شدت با یکدیگر ارتباط دارند. به طور خلاصه ، عوامل به دلیل واریانس مشترکی که وجود دارد ، به دلیل همبستگی متغیرها با یکدیگر ، پروکسی برای متغیرهای مدل هستند.

مزیت تجزیه و تحلیل عامل حذف متغیرهایی است که بر مدل تأثیر نمی گذارند. فاکتورهای توسعه یافته در تغییر ابعاد یک مجموعه داده ، یک روش اقتصادی تر برای توصیف متغیرهای تأثیرگذار است.

نتیجه ، تعداد پارامترهای کاهش یافته برای مدلهای آماری است ، خواه رگرسیون باشد یا مدل یادگیری ماشین. تجزیه و تحلیلگر می تواند محاسبه بهینه تری از داده های آموزش را برنامه ریزی کند ، که به شما امکان می دهد یک مدل یادگیری ماشین را با کارآیی بیشتری ایجاد کنید.

تجزیه و تحلیل عامل به ویژه برای مطالعات مفید است که شامل طیف گسترده ای از نظرات و پاسخ های مشخص است. پاسخ های نظرسنجی معمولاً به عنوان مقیاس لیکرت طبقه بندی می شوند که در آن پاسخ دهندگان عبارت مورد نظر را 1 (بسیار کاملاً موافق) با 10 (بسیار کاملاً مخالف) ارزیابی می کنند. اما تأیید پاسخهایی که ممکن است روی پاسخ درخواستی تأثیر بگذارد دشوار است. پرسیدن س accumالهای جمع کننده پیچیدگی تعیین پاسخهایی را که بیشترین تأثیر کلی را در بین پاسخ دهندگان به نظرسنجی دارند ، معرفی می کند. تجزیه و تحلیل عامل می تواند به توسعه ارزیابی در یک رابطه آماری کمک کند ، که می تواند نشان دهد که چگونه بهترین پاسخ برای هر سوال را درجه بندی می کند. برای درک نگرش ها و باورهای پاسخ های نظرسنجی ، از تحلیل عاملی به طور گسترده در تحقیقات روانشناسی استفاده می شود.

شش فرض وجود دارد که داده ها باید به منظور توسعه یک مدل تجزیه و تحلیل عامل مناسب داشته باشند:

  1. مشاهدات به صورت فواصل به نظر می رسند. مشاهدات اسمی و منظم در تحلیل عاملی کار نمی کنند.
  2. مجموعه داده ها باید ساختار کافی داشته باشند. این بدان معنی است که حداقل شامل 100 مشاهده است. همچنین نسبت مشاهدات به متغیرها نسبتاً زیاد است ، تقریباً دو برابر مشاهدات بیشتر از متغیرها. مجموعه داده ها باید اطمینان حاصل کنند که متغیرهای بیشتری نسبت به عوامل ایجاد می شوند.
  3. هیچ انحرافی در مجموعه داده ها وجود ندارد.
  4. متغیرها خطی هستند.
  5. چند خطی کامل وجود ندارد ، به این معنی که هر متغیر منحصر به فرد است. چند خطی بودن اساساً بهم پیوستگی بالایی بین متغیرها است.
  6. هیچ همدستی بین متغیرها مورد نیاز نیست. Homoscedasticity به این معنی است که همه متغیرها دارای واریانس یکسان و در نتیجه انحراف معیار یکسان در اندازه هستند.

پس از بررسی داده های خود با این دستورالعمل ها ، می توانید روی مجموعه داده های زیر کار کنید تا فاکتورها را تعیین کنید. بسته به مهارت برنامه نویسی ، چندین گزینه برای ابزار مدل سازی دارید. کتابخانه های برنامه نویسی R و Python یک انتخاب محبوب در میان محققان و مهندسان داده است. این توافق نامه به عنوان درخواست برای داده های به روز شده از دریاچه داده ، انعطاف پذیری در ایجاد محاسبات اضافی و مراحل خودکار را فراهم می کند. احتمال دیگر نرم افزارهای آماری مانند SPSS است. نرم افزار آماری شامل تنظیمات از پیش تنظیم شده برای محاسبه فاکتورهایی شبیه مشخصات آماری اساسی در Excel است.

در هر دو مورد ، ستون ها را به فاکتور تبدیل می کنید. بنابراین اگر متغیرهای شما برای یک مدل خطی طراحی شده اند ؛ آنها می توانند اینگونه به نظر برسند:

که در آن xمتر متغیر است و Aمتر ضریبی است که به ارتباط یک متغیر با دیگری کمک می کند.

با توجه به مدل خطی ، فاکتورها با ضرایبی به نام بارهای عاملی که مجموعه ای از عوامل را در مدلهای شما فراهم می کنند ، به روشی مشابه ساختار می یابند.

برای تعیین ضریب بار ، برنامه یا نرم افزار شما چرخش ریاضی را اجرا می کند. چرخش ها روش مطالعه متغیرها را ساده می کنند تا بفهمند چه تعداد فاکتور ممکن است. چرخش متعامد یک انتخاب استاندارد است ، که معمولاً نشان می دهد دو عامل بیشتر واریانس متغیر را توضیح می دهند. اما متعامد هر دو عامل اول و دوم را مورد تأکید قرار می دهد. به عنوان F فکر کنید1 و F2 اما F وجود ندارد3 این می تواند دقت را افزایش دهد و مدل را واقعا بهینه کند.

به این ترتیب ، کار واقعی شما نیاز به بررسی داده ها با انواع مختلف چرخش – varimax ، equimax و oblimin ، در میان دیگر – برای ارزیابی فاکتورهای بار دارد که بهترین عملکرد را دارند. برخی از روشهای چرخش دارای شرایط همبستگی خاصی هستند. در این موارد ، بسته های R و Python می توانند چرخش مناسب را روی داده های شما اعمال کنند.

برنامه ها مقادیر ویژه را که مقیاس مربوط به بارهای عاملی است ، محاسبه می کنند. مقادیر ویژه مقدار تنوعی را که یک عامل گزارش می کند اندازه گیری می کنند. این کار هدفی مشابه با ضریب همبستگی بین متغیرهای رگرسیون دارد. ضریب همبستگی بیانگر چگونگی ارتباط دو متغیر داده شده است. بار عامل نشان می دهد که دو عامل چقدر با هم مرتبط هستند.

ابزارهای شما فاکتورهایی را در ترتیب نزولی یا افزایش مقادیر ویژه سازماندهی می کنند. مقادیر ویژه از 1 تا 1 است. مقادیر ویژه بیشتر از 0 به این معنی است که یک عامل انحراف بیشتر از یک متغیر را توضیح می دهد. مقادیر ویژه نزدیک به صفر چند خطی بودن را نشان می دهد که می خواهید از مدل آن جلوگیری کنید. مقادیر ویژه منفی یا صفر عواملی را منعکس می کنند که ممکن است به طور بالقوه تحت تأثیر قرار نگیرند.

عاملی که بالاترین ارزش ویژه را دارد بیشترین تأثیر را دارد ، دومین عامل دومین و بیشترین و غیره است. با استفاده از عوامل شناسایی شده می توانید کمترین تأثیر را بردارید و ببینید مدل شما چگونه کار می کند.

انواع مختلفی از تجزیه و تحلیل عوامل موجود است. تجزیه و تحلیل عامل تحقیق یک گزینه معمول برای آزمایش تعداد عوامل است بدون نیاز به یک فرضیه اولیه برای متغیرها. با این حال ، یک تکنیک پیچیده تر که تأیید تحلیل عاملی را تأیید می کند ، این فرضیه را آزمایش می کند که ویژگی های خاصی در مجموعه داده ها به عوامل خاص مربوط می شود. در بسیاری از موارد ، خواهید فهمید که شما نتایج روشهای مختلف چرخش و فرضیات داده را مقایسه می کنید تا ببینید چه عواملی واریانس متغیرهای شما را به بهترین وجه توضیح می دهد و الگو را ایجاد می کنید.

مدل داده مناسب در دامان شما قرار نمی گیرد. با تعیین اینکه از چه داده ای برای مدل استفاده خواهید کرد ، باید یاد بگیرید که کدام متغیرها کار می کنند و کار نمی کنند. در نهایت شما از طریق تحلیل عاملی به یافتن بهترین مدل خود نزدیکتر خواهید شد. شما حداقل متغیرهای مورد نیاز را پیدا خواهید کرد تا مدل خود را به مدل مناسب نیاز خود تبدیل کنید.

این مقالات یادگیری ماشین را دنبال کنید:

چگونه یادگیری ماشینی را پایدار و متعادل نگه داریم

همه گیری سرعت بخشیدن به یادگیری ماشین است

اتوماسیون و آموزش فرایندهای تجاری با جمهوری اسلامی ، هوش مصنوعی و ML

هوش مصنوعی و یادگیری ماشین: راهنمایی برای شرکت

Pier DeBois بنیانگذار Zimana ، یک شرکت مشاوره تجزیه و تحلیل کسب و کار کوچک است که داده های راه حل های تجزیه و تحلیل وب و داشبورد رسانه های اجتماعی را بررسی می کند ، سپس توصیه ها و اقداماتی را برای توسعه وب ارائه می دهد که استراتژی بازاریابی و سودآوری تجارت را بهبود می بخشد. او … بیوگرافی کامل را ببینید

ما از نظرات شما در مورد این موضوع در کانال های رسانه های اجتماعی خود استقبال می کنیم [contact us directly] با س questionsال در مورد سایت.

مقالات بیشتر




منبع: tasiveh-news.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>