[ad_1]

از آنجا که CI / CD برای حمایت از توسعه ML پیشرفت می کند ، متخصصان فناوری اطلاعات چندین فرصت برای یادگیری در مورد خطوط لوله و حفظ قابلیت اطمینان مدل داده دارند. در اینجا یک مرور کلی است.

مدیران اغلب ماهیت جعبه سیاه مدل های یادگیری ماشین را اقدامی مرموز می دانند ، این یک هنر عرفانی است که در صحنه های فیلم Marvel Doctor Strange به جای هوش مصنوعی ظاهر می شود. در نتیجه ، آنها از مدیران فناوری اطلاعات می خواهند که قهرمان فیلم باشند – کسی که قادر است فرایندهایی را به چالش بکشد تا مدل عملکرد خوبی داشته باشد. واقعیت این است که درک اصول خط لوله یادگیری ماشین می تواند مراحل مربوطه را از بین ببرد تا تیم های فناوری اطلاعات بتوانند فناوری حیاتی برای فضای رقابتی تجارت امروز را مدیریت کنند.

تصویر: NicoElNino - stock.adobe.com

تصویر: NicoElNino – stock.adobe.com

خطوط لوله اساساً مراحل توسعه در ساخت و اتوماسیون خروجی برنامه مورد نظر است. توسعه دهندگان برای توصیف چگونگی شکل گیری نرم افزار از کد منبع و در یک محیط تولید ، از عبارت “pipeline” به عنوان اصطلاحات اصطلاحی استفاده کردند. در حقیقت ، احتمالاً برچسب خط لوله را برای بسیاری از سرویس های برنامه نویسی تجاری مانند قرار دادن نرم افزار در فروشگاه بروزرسانی مشاهده خواهید کرد. در مورد یادگیری ماشین ، خطوط لوله روند تصحیح داده ها قبل از استقرار و همچنین خود روند استقرار را توصیف می کنند.

خط لوله یادگیری ماشین شامل جمع آوری داده ها ، پردازش داده ها ، تحول و آموزش مدل است. فعالیت در هر بخش به نحوه پردازش داده ها و کد مربوط می شود. کسب داده سود داده ها از منابع داده برنامه ریزی شده است. نوع کسب از آپلود ساده یک پرونده داده تا پرس و جو از داده های مورد نظر از دریاچه داده یا پایگاه داده متفاوت است.

پردازش داده ها ایجاد کد برنامه است که مجموعه داده ها را بر اساس سطر ، ستون و مقادیر آماده می کند. آماده سازی تغییرات را بر اساس خصوصیات داده های شناخته شده اعمال می کند. به عنوان مثال ، اختصاص مقادیر از دست رفته با مقدار متوسط ​​مجموعه داده به عنوان مهمان.

تحول چیدمان توابع برنامه است به طوری که مدل داده ها را بخواند. برای مرتب سازی نوع داده در قالبی که برای مدل قابل تشخیص است ، مانند استفاده از کدگذاری داغ برای انتقال متن مشخص از مجموعه داده ها ، طراحی شده است.

آموزش مدل شامل اجرای داده ها برای ایجاد مشخصات مدل است. می توان آنها را بر اساس مدلی که مورد استفاده قرار گرفته است ، برطرف کرد. برخی از چارچوب های یادگیری ماشین دارای پسوندهایی هستند که برای سهولت در اجرا و تنظیم مدل طراحی شده اند. به عنوان مثال ، TensorFlow دارای یک کتابخانه در برنامه نویسی R به نام tfdatasets است که برای خطوط لوله ورودی استفاده می شود.

بعد از آموزش ، آخرین مرحله آزمایش یک مدل است تا ببینید چقدر دقیق مقدار پیش بینی شده را می دهد و بیش از حد پارامترهای مدل را متناسب با آن تنظیم می کند.

اهمیت اسناد

یکی دیگر از جزئیات مهم که باید در خط لوله گنجانده شود ، مستندات است. این اسناد برای ایجاد دستورالعمل هایی برای انجام عملکردها در دوره های زمانی خاص استفاده می شود. YAML یک زبان برنامه نویسی متنی است که برای این منظور استفاده می شود. سند با جفت مقادیر نامی مانند آنچه در پرونده JSON وجود دارد ، طراحی شده است.

با انجام مراحل مختلف ، متخصصان فناوری اطلاعات می توانند به بهترین نحو مدیریت مشکلات خط لوله را از طریق هر یک از سیستم عامل های مدیریت فرآیند خط لوله یاد بگیرند. معروف ترین آنها Microsoft Azure ML ، Amazon Sagemaker و Google Cloud AI هستند. هر یک از آنها یک محیط توسعه خط لوله یکپارچه را ارائه می دهند و ویژگی های خاصی را ارائه می دهند که با سایر خدمات ابری آنها کار می کنند. به عنوان مثال Azure Pipelines با Microsoft IDE ، Visual Studio Code همگام سازی می شود تا به توسعه دهندگان گردش کار خاصی برای بارگذاری اصلاحات لازم بدهد. این به ویژه برای ویرایش فایل های پیکربندی YAML بسیار مفید است.

هر سرویس پلت فرم از نظر زبان ، بستر و رسانه از مزایای خاص خود برخوردار است. به عنوان مثال ، Azure ML از Python و R پشتیبانی می کند و گزینه ای را برای AutoML فراهم می کند ، چارچوبی برای فرایندهای اساسی یادگیری ماشین. این جزئیات نشان می دهد که چه موارد خاصی برای آموزش تیمی مورد نیاز است.

شتاب دهنده ها را بشناسید

تیم های IT علاوه بر یادگیری سیستم عامل ، باید با شتاب دهنده ها نیز آشنا شوند. شتاب دهنده ها سرویس های ابری هستند که چندین هسته پردازنده به نام GPU (GPU) را در خود جای می دهند. GPU یک پردازنده تخصصی است که حافظه خاصی را برای محاسبات گرافیکی و ریاضی فراهم می کند. پردازنده های گرافیکی دسته بزرگی از پارامترهای داده را پردازش می کنند ، در زمان آزمایش و آموزش صرفه جویی می کنند که برای پردازنده لپ تاپ غیر ممکن است.

شتاب دهنده ها برای دسترسی به راه حلهای اتصال به مدل ، گاهی به چارچوبهای اضافی نیاز دارند. به عنوان مثال ، TensorFlow دارای یک نسخه جداگانه از پردازنده گرافیکی کتابخانه TPU (واحد پردازش Tensor) برای مدیریت میلیون ها محاسبه پارامتر است که در طول آموزش و دوره های آزمایشی اتفاق می افتد. بنابراین ، تیم های IT باید به دنبال آموزش چارچوب برای درک مسائل اجرایی که ممکن است بوجود آید ، باشند.

برنامه ریزی برای مطالعه سیستم عامل های خط لوله و شتاب دهنده ها ، شروع برنامه ریزی CI / CD را در وسط مدل قرار می دهد. در اینجا مشاهده موضوع مهمی می شود. من قبلاً در پست چگونه متخصصان فناوری اطلاعات می توانند مبارزه برای اخلاق داده ها را رهبری کنند ، به نظارت اشاره کردم. قابلیت مشاهده به شما امکان می دهد تا عملکرد مدل را برای تعدیل عملکرد پیگیری کنید – خصوصاً ارزشمند زیرا مدل های آزمایش و آموزش می توانند مدت زمان زیادی طول بکشد. سیستم نظارت می تواند به تیم فناوری اطلاعات اجازه دهد مدل های کنترل نسخه را تغییر دهد تا برنامه نویسی مربوط به یک مسئله عملکرد با دقت حذف شود. این تکرارپذیری همچنین آغاز اعتبار سنجی مدل است. بررسی های اعتبارسنجی مدل برای عملکرد مدل در چندین محیط به انتخاب مدل بهینه یادگیری ماشین کمک می کند.

پس از برنامه ریزی و بررسی نسخه ها ، پیش بینی عملکردهای CI / CD باید آسان تر باشد. مقدار CI / CD بستگی به ارائه به روزرسانی هایی دارد که با توجه به مراحل خط لوله و شرایط مدل سازمان یافته اند.

درک خطوط لوله ، گردش کار صحیحی را برای تیم های IT که از تکنیک های CI / CD با مدل های یادگیری ماشین استفاده می کنند ، تنظیم می کند. این همچنین راه را برای تیم های IT فراهم می کند تا در مورد فرآیندهای خط لوله موثر بر عملیات تجاری بحث کنند. نتیجه این کار یک تیم فعال فناوری اطلاعات است که یادگیری ماشین را به روز نگه می دارد و به معجزه هایی دست می یابد که گویی جادویی است.

Pier DeBois بنیانگذار Zimana ، یک شرکت مشاوره تجزیه و تحلیل کسب و کار کوچک است که داده های راه حل های تجزیه و تحلیل وب و داشبورد رسانه های اجتماعی را بررسی می کند ، سپس توصیه ها و اقداماتی را برای توسعه وب ارائه می دهد که استراتژی بازاریابی و سودآوری تجارت را بهبود می بخشد. او … بیوگرافی کامل را ببینید

ما از نظرات شما در مورد این موضوع در کانال های رسانه های اجتماعی خود استقبال می کنیم [contact us directly] با س questionsالات در مورد سایت.

بینش بیشتر



[ad_2]

منبع: tasiveh-news.ir