به گزارش تابش کوثر، گروه هوش مصنوعی عمومی مایکروسافت از مدل زبانی جدیدی با معماری سادهشده رونمایی کرده است که تنها از سه مقدار وزنی -۱، ۰ و +۱ استفاده میکند. پژوهشگران اعلام کردند: «این مدل با کاهش چشمگیر پیچیدگی محاسباتی، قادر است بهراحتی روی یک پردازنده معمولی اجرا شود».
مایکروسافت با معرفی مدلی «۱ بیتی» نشان داد اجرای مدلهای زبان بزرگ بدون GPU ممکن است.
در حالی که مدلهای رایج هوش مصنوعی به اعداد ۱۶ یا ۳۲ بیتی برای وزندهی متکی هستند، بیتنت b۱.۵۸ تنها با میانگین ۱.۵۸ بیت برای هر وزن عمل میکند. این موضوع نیاز به حافظه را به ۰.۴ گیگابایت کاهش داده است، رقمی که بهمراتب کمتر از مدلهای مشابه متنباز است که بین ۲ تا ۵ گیگابایت حافظه نیاز دارند.
به لطف این سادهسازی، عملیات داخلی مدل در زمان اجرا نیز بسیار بهینهتر انجام میشود. تیم تحقیقاتی اعلام کرد: «بیتنت با استفاده از جمعهای ساده بهجای ضربهای سنگین، مصرف انرژی را تا ۹۶ درصد نسبت به مدلهای دقت کامل کاهش میدهد».
نکته مهم دیگر، آموزش مدل از ابتدا با وزنهای ساده است. برخلاف بسیاری از پروژههای مشابه که کوانتسازی را پس از آموزش انجام میدهند، بیتنت b۱.۵۸ از ابتدا با این ساختار آموزش دیده است. پژوهشگران تأکید کردند: «این رویکرد باعث میشود عملکرد مدل به سطح مدلهای پایهاش بسیار نزدیک بماند».
آزمایشها نشان دادهاند که این مدل، در بنچمارکهای رایج مربوط به استدلال، ریاضیات و دانش عمومی، عملکردی نزدیک به مدلهای حجیمتر دارد. پژوهشگران اضافه کردند: «بیتنت در کلاس حجمی خود، عملکردی در حد مدلهای پیشرو دارد و در عین حال بهطور چشمگیری بهینهتر است».
با این حال، هنوز مشخص نیست چرا چنین ساختار سادهای با این سطح از موفقیت همراه شده است. محققان گفتهاند: «درک عمیقتر دلایل کارایی بالای آموزش ۱ بیتی در مقیاس وسیع، همچنان نیاز به پژوهشهای بیشتر دارد».
این دستاورد جدید، راه را برای توسعه مدلهایی هموار میکند که بتوانند بدون وابستگی به سختافزار گرانقیمت، در دستگاههای سبک و کممصرف نیز اجرا شوند. شاید مدلهای دقت کامل امروز، همان خودروهای پرمصرفی باشند که در دنیای آینده دیگر ضرورتی برای استفاده از آنها نباشد.
م/۱۱۰*
نظر شما