با لیبره ترنسلیت چه باید کرد؟

اشتراک‌گذاری

سلام! جعفر هستم و این اولین نوشته‌ام توی وبلاگ کرم های کامپیوتره 🙂

حالا قراره درباره چی حرف بزنم؟ یک چند وقتی درگیر این بودم که لیبره‌ترنسلیت که یک مترجم آزاده(این) رو برای زبان فارسی بهبود بدم. یعنی کاری کنم که ترجمه بهتری برای زبان فارسی داشته باشه.

قبلش بگم که لیبره ترنسلیت چیه؟

لیبره ترنسلیت یک نرم‌افزار ترجمه ماشینی آزاده که بر پایه کتابخانه‌های آرگوز ترنسلیت(argos-translate ) توسعه داده شده که با یک رابط تحت وب به صورت سرویس ترجمه ماشینی نامتمرکز در دسترسه. مثلا نمونه‌ای که توسط توسعه‌دهندگانش مدیریت میشه اینه:

https://libretranslate.com/

درباره نحوه کارکرد و زبان‌هایی که پشتیبانی می‌کنه می‌تونید توی صفحه گیت‌هاب‌شون بخونید.

حالا من می‌خواستم چیکار کنم؟

با توجه به اینکه لیبره ترنسلیت یک مدل هوش‌مصنوعی ترجمه ماشینی(البته نه دقیقا یک مدل) هستش ساختار کلی‌اش اینه که با یک حجم بالایی داده ترجمه به دو زبان(مبدا مثلا فارسی و مقصد مثلا انگلیسی که دوتا مدل آموزش می‌بینه یکی مبدا به مقصد و یکی برعکس‌ش) نیاز داره، که اینجا هدفمون فارسی بود. اولین کار این بود که ببینیم مشکل این کیفیت پایین ترجمه چیه. رفتم یک دوری زدم و به داده هایی که مدل فارسی باهاش آموزش دیده رسیدم. حدود پنج میلیون خط ترجمه که کیفیت جالبی هم نداشت.

راهکار این بود که داده های بهتری جمع کنیم و مدل جدید آموزش بدیم. این کار رو کردیم و دوستانی هم کمک بسیاری کردند در این مسیر و حدود ۲ میلیون خط ترجمه جمع شد(عموما سر هم کردن دیتاست های آزاد دیگه). یک دوست عزیز دیگه‌ای لطف کردند سخت افزارشون رو برای آموزش مدل در اختیار من گذاشتن(برای آموزش این‌جور مدل‌ها به سخت افزار قوی از جمله GPU قوی نیازه که من ندارم :)‌ و مدل رو با حدود پنج ساعت پردازش آموزش دادیم، اما خروجی از مدل لیبره ترنسلیت هم بدتر بود!

با عیب‌یابی به این نتیجه رسیدیم که هم کیفیت این داده‌ها کافی نیست و هم حجمشون. مشکل دیگه این بود که بخش قابل توجهی از داده‌ها ترجمه واژه‌نامه‌وار (و نه جمله در برابر جمله) بود که کار رو خراب می‌کرد.

یک مدتی گذشت در همین موضوع من یک برنامه ای چیدم برای حلش و یک ارائه‌ای در دورهمی‌های کرم‌های کامپیوتر دادم. با این موضوع که که چه کنیم که مشکل رو حل کنیم. دوستان لطف کردن کمک کردن و هم‌چنین حمایت بیشتر :))

خواستیم شروع کنیم من یک مقدار اسکریپت برای خودکار کردن استخراج داده، از اینترنت و تبدیلشون به ترجمه با گوگل ترنسلیت، نوشتم و یکم داده جمع شد، بعد از چند روز که داشتم توی اینترنت چرخ می‌زدم به این لینک رسیدم:

https://opus.nlpl.eu/NLLB/en&fa/v1/NLLB

همینجا بود که فهمیدیم این همه کار به قولی الکی بوده :/ یعنی چی؟ یعنی ما برنامه داشتیم با کلی پردازش و بازبینی انسانی ۵ میلیون خط ترجمه خوب جمع کنیم اما اینجا حجم بسیار بزرگی یعنی ۲۵ میلیون خط ترجمه انگلیسی به فارسی به حجم ۴۷ گیگابایت خوابیده بود!

حالا چرا پیگیر آموزش مدل نشدم؟

اول اینکه من سخت افزار لازم رو برای آموزش نداشتم، و اینکه اگه کسی مثل دفعه قبل زحمت آموزش رو می‌کشید مثلا با اون سخت‌افزار قبل (یعنی گرافیک با ۱۲ گیگابایت حافظه ویدئویی) و اگه زمان آموزش رو خطی فرض کنیم ۶۲.۵ ساعت نیاز بود که گرافیک جون بکنه که با این حجم داده مدل رو آموزش بده! و این از توان من خارجه.

و باید چیکار کرد؟

این کار متاسفانه خارج از توان منه. اما اگر کسی بخواد این کار رو انجام بده نیاز داره به کارت گرافیک قوی و زمان برای آموزش یا اگه اینها رو نداره می‌شه دو سه روزی یک سرور GPU دار اجاره کنه و این کار رو انجام بده، البته کمک دیگه‌ای برای این کار نیاز باشه من می‌تونم همین چند خط تجربه‌ای که سر این موضوع کسب کردم در اختیارش بذارم 🙂

اشتراک‌گذاری

نوشته های مرتبط:

5 دیدگاه برای “با لیبره ترنسلیت چه باید کرد؟”

علی 14 آذر 1403 در 7:31 بعد از ظهر

سلام و درود خدمت نویسنده این پست میتونم ایمیل یا ای دی تلگرامتون را داشته باشم؟

پاسخ
1. فاروق کریمی‌زاده 27 آذر 1403 در 5:38 بعد از ظهر
  
  سلام. ببخشید بابت طول کشیدن توی پاسخ دادن. الآن از جعفر ایمیلش رو میپرسم و اطلاع میدم.
  
  پاسخ
2. فاروق کریمی‌زاده 27 آذر 1403 در 5:43 بعد از ظهر
  
  خب تلگرام:
  moa_engine
  ایمیل:
  qxc6699 gmail.com
  
  پاسخ
ali 27 آذر 1403 در 2:03 بعد از ظهر

سلام امکان نصب لیبره ترنسلیت روی هاست لینوکس و ایجاد یک سایت آنلاین برای کاربران هست یا اینکه باید روی هاست پایتون پیاده بشه؟

پاسخ
1. فاروق کریمی‌زاده 27 آذر 1403 در 5:42 بعد از ظهر
  
  اطلاع درستی ندارم و باید از دوستانی که اطلاع دارن بپرسید. ولی حتی اگر هم بشه با توجه به این‌که این هاست‌های PHP معمولا برای کار‌های پردازشی ساخته نشدن، نتیجهٔ مناسبی نمی‌گیرید.
  
  پاسخ

کرم‌های کامپیوتر

با لیبره ترنسلیت چه باید کرد؟

قبلش بگم که لیبره ترنسلیت چیه؟

حالا من می‌خواستم چیکار کنم؟

نوشته های مرتبط:

5 دیدگاه برای “با لیبره ترنسلیت چه باید کرد؟”

دیدگاهتان را بنویسید لغو پاسخ

بهنام سیم‌جو

فاروق کریمی‌زاده