Large Language Models
مدل های زبانی بزرگ ؛
سامانه های هوش مصنوعی هستند که برای درک، تولید پاسخگویی به زبان انسان طراحی شده اند
مدل های زبانی بزرک شبکه های عصبی قدرتمندی هستند که می توانند تا یک تریلیون پارامتر داشته باشند (بزرگ هستند). آنها بر روی داده های متنی گسترده و با استفاده از تکنیکهای یادگیری عمیق، آموزش دیده اند و به طور خاص برای پردازش و تولید متن توسعه یافته اند
به طور کلی آموزش مدل های زبانی بزرگ ابتدا بدون نظارت انجام می شود تا به مدل های زبانی بزرگ درک کلی از متن بدهد
. (Pre_Training)
سپس تنظیم دقیق ، است که مدل های زبانی بزرگ را برای کارهای
خاص تخصصی می کند. تنظیم دقیق مدل های زبانی بزرگ یک فرآیند یادگیری نظارت شده
است که در آن از مجموعه داده ای از نمونه های برچسب دار برای به روز رسانی وزن مدل های زبانی بزرگ استفاده شده و توانایی مدل را بهبود می بخشد. متون بر اساس همبستگی های تصادفی تولید می شوند. توزیعهای احتمال برای پیشبینی اینکه چه کلمه یا عبارتی در ادامه باید بیاید استفاده می شود
(Fine_Tuning)
مرحله انتهایی؛ یادگیری تقویتی با استفاده از بازخورد انسان است
(Reinforcement Learning With human feedback).
در نهایت خروجیهای مدل های زبانی بزرگ کیفیت بالایی مشابه متون نوشته شده توسط انسان را دارند.
یکی از روشهای تنظیم دقیق مدل های زبانی بزرگ از طریق ارزیابی انسانی خروجیهای مدل است. جهت ارزیابی خروجی ها و جهت جلوگیری از سوگیریهای فردی باید از متخصصین قابل اعتماد استفاده شود. با این وجود؛ مدل های زبانی بزرگ می تواند دچار سوگیری های ناخواسته شود. بنابراین کاربران در موارد استفاده خاص باید ارزیابی کنند که انحراف مدل های زبانی بزرگ از این استانداردها تا چه حد ممکن است سبب بروز مشکل شود
Large Language Models مدل های زبانی بزرگ