[ad_1]

https://www.youtube.com/watch؟v=5FsRwz8hlog

مهندسان آمازون در این کلیپ سه دقیقه ای بحث در مورد مهاجرت 80 درصدی بار الکسا به ASIC Inferentia را دارند.

روز پنجشنبه ، یک پست وبلاگ آمازون ، AWS اعلام کرد که این شرکت بیشتر پردازش ابری را برای دستیار شخصی الکسا خود از پردازنده های گرافیکی Nvidia به مدار مجتمع خود (ASIC) برای برنامه استنباط منتقل کرده است. Amazon dev Sebastien Stormacq طراحی سخت افزار Inferentia را به شرح زیر توصیف می کند:

AWS Inferentia یک تراشه سفارشی است که توسط AWS برای سرعت بخشیدن به بارهای خروجی یادگیری ماشین و بهینه سازی هزینه آنها ایجاد شده است. هر تراشه AWS Inferentia شامل چهار NeuronCore است. هر NeuronCore یک موتور ضرب آرایه سیستولیک بسیار کارآمد را اجرا می کند که به طور قابل توجهی عملیات یادگیری عمیق معمولی مانند کانولوشن و ترانسفورماتور را تسریع می کند. NeuronCores همچنین به یک حافظه نهان داخلی بزرگ مجهز شده است ، که به کاهش دسترسی به حافظه خارجی ، تأخیر شدید و افزایش بهره وری کمک می کند.

وقتی مشتری آمازون – معمولاً شخصی که دارای Echo یا Echo dot است – از دستیار شخصی الکسا استفاده می کند ، پردازش بسیار کمی روی خود دستگاه انجام می شود. بار برای یک پرس و جو معمول الکسا به این شکل است:

  1. مردی با آمازون اکو صحبت می کند و می گوید: “الکسا ، چه ماده خاصی در چای ارل گری وجود دارد؟”
  2. اکو کلمه بیدار – الکسا – را با استفاده از پردازش داخلی آن تشخیص می دهد
  3. اکو درخواست را به مراکز داده در آمازون ارسال می کند
  4. در مرکز داده آمازون ، جریان صوتی به واج تبدیل می شود (حجم کاری Inference AI)
  5. هنوز در مرکز داده ، واج ها به کلمات تبدیل می شوند (بار AI برای خروجی)
  6. کلمات به عبارات گروه بندی می شوند (بارگذاری AI برای خروجی)
  7. عبارات مطابق در نظر گرفته شده تقطیر می شوند (بارگذاری AI در استنباط)
  8. هدف به یک سرویس اجرای مناسب هدایت می شود که پاسخی را به عنوان سند JSON برمی گرداند
  9. سند JSON از جمله متن پاسخ الکسا مورد تجزیه و تحلیل قرار گرفت
  10. فرم متن پاسخ الکسا به گفتار با صدای طبیعی تبدیل می شود (بارگذاری AI در استنباط)
  11. صدا با گفتار طبیعی به دستگاه پخش Echo منتقل می شود – “این روغن نارنج نارنج است”.

همانطور که می بینید ، تقریباً تمام کارهای واقعی انجام شده هنگام اجرای یک پرس و جو از الکسا در ابر رخ می دهد – نه در خود Echo یا Echo Dot. و بیشتر این کارها در ابر با منطق سنتی انجام نمی شود ، اگر نتیجه باشد ، بلکه استنتاج است – که پاسخگویی پردازش شبکه عصبی است.

طبق گفته های Stormacq ، تغییر این بار از خروجی سخت افزار GPU انویدیا به تراشه Inferentia خود آمازون منجر به 30٪ کاهش هزینه و 25٪ بهبود تأخیر پایان به انتهای بارهای متن به گفتار الکسا می شود. آمازون تنها شرکتی نیست که از پردازنده Inferentia استفاده می کند – این تراشه موارد آمازون AWS Inf1 را که برای عموم مردم در دسترس است و با نمونه های G4 مجهز به GPU آمازون رقابت می کند ، قدرت می دهد.

کیت توسعه نرم افزار AWS Neuron آمازون به توسعه دهندگان یادگیری ماشین اجازه می دهد تا از Inferentia به عنوان هدف برای چارچوب های معروف از جمله TensorFlow ، PyTorch و MXNet استفاده کنند.

تصویر لیستی از آمازون

[ad_2]

منبع: tasiveh-news.ir