سلام! جعفر هستم و این اولین نوشتهام توی وبلاگ کرم های کامپیوتره 🙂
حالا قراره درباره چی حرف بزنم؟ یک چند وقتی درگیر این بودم که لیبرهترنسلیت که یک مترجم آزاده(این) رو برای زبان فارسی بهبود بدم. یعنی کاری کنم که ترجمه بهتری برای زبان فارسی داشته باشه.
قبلش بگم که لیبره ترنسلیت چیه؟
لیبره ترنسلیت یک نرمافزار ترجمه ماشینی آزاده که بر پایه کتابخانههای آرگوز ترنسلیت(argos-translate) توسعه داده شده که با یک رابط تحت وب به صورت سرویس ترجمه ماشینی نامتمرکز در دسترسه. مثلا نمونهای که توسط توسعهدهندگانش مدیریت میشه اینه:
درباره نحوه کارکرد و زبانهایی که پشتیبانی میکنه میتونید توی صفحه گیتهابشون بخونید.
حالا من میخواستم چیکار کنم؟
با توجه به اینکه لیبره ترنسلیت یک مدل هوشمصنوعی ترجمه ماشینی(البته نه دقیقا یک مدل) هستش ساختار کلیاش اینه که با یک حجم بالایی داده ترجمه به دو زبان(مبدا مثلا فارسی و مقصد مثلا انگلیسی که دوتا مدل آموزش میبینه یکی مبدا به مقصد و یکی برعکسش) نیاز داره، که اینجا هدفمون فارسی بود. اولین کار این بود که ببینیم مشکل این کیفیت پایین ترجمه چیه. رفتم یک دوری زدم و به داده هایی که مدل فارسی باهاش آموزش دیده رسیدم. حدود پنج میلیون خط ترجمه که کیفیت جالبی هم نداشت.
راهکار این بود که داده های بهتری جمع کنیم و مدل جدید آموزش بدیم. این کار رو کردیم و دوستانی هم کمک بسیاری کردند در این مسیر و حدود ۲ میلیون خط ترجمه جمع شد(عموما سر هم کردن دیتاست های آزاد دیگه). یک دوست عزیز دیگهای لطف کردند سخت افزارشون رو برای آموزش مدل در اختیار من گذاشتن(برای آموزش اینجور مدلها به سخت افزار قوی از جمله GPU قوی نیازه که من ندارم :) و مدل رو با حدود پنج ساعت پردازش آموزش دادیم، اما خروجی از مدل لیبره ترنسلیت هم بدتر بود!
با عیبیابی به این نتیجه رسیدیم که هم کیفیت این دادهها کافی نیست و هم حجمشون. مشکل دیگه این بود که بخش قابل توجهی از دادهها ترجمه واژهنامهوار (و نه جمله در برابر جمله) بود که کار رو خراب میکرد.
یک مدتی گذشت در همین موضوع من یک برنامه ای چیدم برای حلش و یک ارائهای در دورهمیهای کرمهای کامپیوتر دادم. با این موضوع که که چه کنیم که مشکل رو حل کنیم. دوستان لطف کردن کمک کردن و همچنین حمایت بیشتر :))
خواستیم شروع کنیم من یک مقدار اسکریپت برای خودکار کردن استخراج داده، از اینترنت و تبدیلشون به ترجمه با گوگل ترنسلیت، نوشتم و یکم داده جمع شد، بعد از چند روز که داشتم توی اینترنت چرخ میزدم به این لینک رسیدم:
https://opus.nlpl.eu/NLLB/en&fa/v1/NLLB
همینجا بود که فهمیدیم این همه کار به قولی الکی بوده :/ یعنی چی؟ یعنی ما برنامه داشتیم با کلی پردازش و بازبینی انسانی ۵ میلیون خط ترجمه خوب جمع کنیم اما اینجا حجم بسیار بزرگی یعنی ۲۵ میلیون خط ترجمه انگلیسی به فارسی به حجم ۴۷ گیگابایت خوابیده بود!
حالا چرا پیگیر آموزش مدل نشدم؟
اول اینکه من سخت افزار لازم رو برای آموزش نداشتم، و اینکه اگه کسی مثل دفعه قبل زحمت آموزش رو میکشید مثلا با اون سختافزار قبل (یعنی گرافیک با ۱۲ گیگابایت حافظه ویدئویی) و اگه زمان آموزش رو خطی فرض کنیم ۶۲.۵ ساعت نیاز بود که گرافیک جون بکنه که با این حجم داده مدل رو آموزش بده! و این از توان من خارجه.
و باید چیکار کرد؟
این کار متاسفانه خارج از توان منه. اما اگر کسی بخواد این کار رو انجام بده نیاز داره به کارت گرافیک قوی و زمان برای آموزش یا اگه اینها رو نداره میشه دو سه روزی یک سرور GPU دار اجاره کنه و این کار رو انجام بده، البته کمک دیگهای برای این کار نیاز باشه من میتونم همین چند خط تجربهای که سر این موضوع کسب کردم در اختیارش بذارم 🙂
من به عنوان یه متخصص کامپیوتر در پاسخ به هشدارم در مورد جمعآوری اطلاعات توسط شرکتهایی مثل گوگل و… همیشه یک پاسخ تکراری میشنوم: «من که هیچ اطلاعات مهم و سرّیای ندارم!»
با توجه به این که امروزه در عصر ارتباطات و اطلاعات هستیم و استفاده از چنین خدماتی بسیار فراگیر شده، لازم میدونم در این مطلب بگم که «چرا اطلاعات شما مهم هستند؟» و «جامعهٔ نرمافزارهای آزاد چه تأثیری بر این مورد دارند؟»
اطلاعات شما مهم نیستند!
اطلاعات خودشون به تنهایی ارزش آنچنانی ندارند اما پردازش آنها بسیار با ارزش خواهند بود. بذارید براتون توضیح بدم. شاید شما یک مامور اطلاعاتی یا یه فرد مهم در یک جایگاه دولتی نباشید اما وقتی اطلاعات شما پردازش شوند، میتواند به افراد دیگر آسیب برساند.
برای مثال خدمات گوگل میتوانند حتی در صورت غیرفعال بودن GPS، موقعیت تقریبی شما را بدانند. این امکان چیزی مخفی و سری نیست، خود گوگل این مورد رو اعلام و در گوشیها امکان استفاده از اون هست! در کل چیز بدی هم نیست، اگه جایی بودید که به ماهوارهٔ GPS دسترسی نبود، باز هم یه موقعیت تقریبی دارید، اما گذشته از این که میتونه برای یهسری افراد بد بشه، جالبه بدونید این امکان با پردازش دادههایی که از افراد عادی به دست اومده، فراهم شده.
چهطوری؟ با استفاده از موقعیت نسبی و دکلهای مخابراتی. هر دکل مخابراتی یک سریال مخصوص داره که گوشی شما هم اون رو دریافت میکنه. امروزه هر گوشی همزمان به بیش از یک دکل وصل هست و اگر در این حین مکانیابی گوشی هم فعال باشه به همراه قدرت سیگنال اتصال یک موقعیت تقریبی از اون دکل داریم. از طرفی با استفاده از یه شبکه (گراف) از اسامی وایفایها و بلوتوثهای نزدیک میشه هم موقعیت نسبی افراد و هم موقعیت وایفای ها رو پیدا کرد.
از طرفی تا به حال متوجه شدید که گوگل میتونه حدس بزنه خونهتون کجاست؟! من متوجه چنین موردی شدم، اگه برید به نقشه google maps احتمالا یه جایی توی نقشه به عنوان خونهٔ شما مشخص شده. حدس من اینه که احتمالاً از مدت زمانی که در یک مکان هستم و هم جاهایی که میرم و برمیگردم به یک نقطهٔ ثابت متوجه این مسئله شده!
حمایت و گسترش
با استفاده از این خدمات، درواقع شما دارید از اون ها حمایت میکنید و بهشون خوراک اطلاعاتی میدید، اونها با پردازش اطلاعاتی که شما بهشون دادید، آمارها و اطلاعات رو استخراج میکنن و اونها رو میفروشن، البته همیشه این اطلاعات چیزهای شخصی نیستند، گاهی سلیقهٔ مصرفکنندههای یه محصول و چیزهای اینچنینی که ارزش تجاری دارند، هستند. اینطوری قدرتشون بیشتر میشه. از طرفی خودبهخود به فراگیر شدن استفادهٔ دیگران از این خدمات کمک میکنید، افراد دیگه که قالباً از چیزهایی که تو این مطلب گفتیم بی اطلاع هستند، مجبور و یا ترغیب به استفاده از چنین خدماتی میشن، در نتیجه کمکم هم قدرت این خدمات و هم مصرفکنندههای اونها بیشتر میشه. مثلا نرمافزار Shareit که همه میشناسیمش، این نرمافزار به تمام پروندهها دسترسی داره و به حریم خصوصی کاربران هم زیاد پایبند نیست، بعد اون وقت هر کسی که میخواد پروندهای برای کسی بفرسته، اولین جملهای که میگه اینه که «shareit نصب کن»!
تأثیرگذاری
از مواردی که گوگل به صورت شفاف گفته که نتایج و تبلیغات رو مطابق سلیقهٔ شما بهتون نشون میده. این هم میتونه مفید و کمککننده باشه و هم میتونه به هدایت شما به سمت یک هدف خاص منجر بشه. نمیخوام از توهم توطئه و کنترل شما توسط این خدمات بگم! ولی فیلتر نتایج یا نمایش هدفمند بعضی از اونها زیاد چیز جالبی نیست! این کار برای این خدمات معمولاً سود تجاری به همراه داره.
یا مثلاً اینستاگرام هم با توجه به علاقهٔ شما، فرستهها رو بهتون نشون میده. حتی بعضی اوقات لابهلای صفحاتی که دنبال میکنید از جاهای دیگه هم فرسته بهتون نشون میده، منجر میشن به این که یه چیزی مثلاً یه مد، یه رفتار یا یه فرهنگ (گاهاً درست و گاهاً غلط) ترند (فراگیر) بشه. یا حتی به یه تحلیل از سلیقهٔ جمعی برسن.
برای مثال در زمان انتخابات در کشورهای بیگانهٔ غربی 😄 با کمک اینفواِنسرها (influencer: افرادی که قدرت تأثیر بر افکار مردم رو دارن، همون شاخهای مجازی!) میتونن تأثیراتی روی دیدگاه و طرز فکر مردم داشته باشن (تعجبی هم نداره؛ تعریف کلمه همینه!) یا مثلاً تأثیری که اونها روی صنعت مد، پوشاک و صنایع آرایشی دارن کاملاً مشخصه.
علاوه بر اون، این روزها الگوریتمها دارن تمام تلاششون رو میکنن که شما رو هر چه بیشتر پای این پلتفرمها نگه دارن که این عوارض بدی براتون به همراه داره.
پ.ن: مواردی که در مورد «تأثیرگذاری» گفته شده تا حدود زیادی مربوط به سواد رسانهای هستن. دانشی که برای هر کسی لازمه که بدونه هر رسانهای چه هدفی داره و برای رسیدن به اون هدفش از چه تکنیکها و ترفندهایی استفاده میکنه
شناخت ارتباطات
بسیاری از شبکههای اجتماعی با تخمین نسبتاً دقیقی میتونن ارتباطات شما با اطرافیانتون رو بسنجن، باز هم شاید این مورد در پیدا کردن دوستهاتون توی شبکههای اجتماعی کمکتون کنه ولی روی تحلیل اطلاعاتی که میخوان از یه شخص خاص جمع کنن تاثیر مستقیم داره.
اعتماد کاذب!
شما (یا خیلیهای دیگه) شاید به نصب یه نرمافزار از یه شرکت ناشناس مثلاً روسی یا چینی مخصوصاً متنبسته شک میکنید ولی خیلی ها به شرکتهایی مثل گوگل یا مایکروسافت اعتماد دارن. اما اگر از مرورگر کروم استفاده میکنید و اون رو به عنوان یه مرورگر امن میشناسید باید بگم که گوگل کروم در ابتدا یک نرم افزار متنباز بود تا زمانی که گوگل تصمیم گرفت یهسری اطلاعات نامعلوم (که شاید چیزهایی نباشن که دوست داشته باشیم!) رو اون پشتمشتها بفرسته به سرورهای خودش یا حتی بدون اطلاع شما به بهونهٔ اسکن ویروسها پروندهها رو اسکن کنه؛ با این که کروم اصلاً یه پادویروس نیست! چنین سرویسی رو خودم خیلی وقت پیشها زمانی که کروم داشتم دیدم، به صورت خودکار در پسزمینه اجرا میشد و امکان غیرفعال کردنش هم نبود! برای همین چیزها بود که عدهای از توسعهدهندههای کروم گفتند که ما نمیخواییم دیگه گوگل کروم رو توسعه بدیم و chromium که متنباز هست رو توسعه میدن (اگر میخوایید از کرومیوم استفاده کنید بگم که من این مرورگر رو پیشنهاد یا تبلیغ نکردم و پیشنهاد میکنم که صرفاً به من اعتماد نکنید و خودتون کرومیوم رو قبل از استفاده بررسی کنید!)
جامعهٔ نرم افزارهای آزاد
آزاد به معنی متنباز بودن نرمافزارها نمیتونن به تنهایی تضمینی برای حفظ حریم خصوصی شما باشه، ولی میتونه روی این موضوع تأثیرگذار باشه. اولاً خیلی از استفادهکنندهها وقت نمیگذارند کدها رو بررسی کنن! دوماً که بعضی از خدمات مثل تلگرام همونطوری که فاروق جان تو مطلب «آیا تلگرام امن و آزاد است» گفت، متن باز بودن نرمافزار گاهی اوقات تأثیری رو حفظ حریم خصوصیتون نداره.
اما این که ارائهدهندههای اون خدمت سخاوتمندانه منبع رو باز گذاشتند و ترسی از لو رفتن هیچ رازی ندارن چیز خوبیه! از طرفی میتونیم بفهمیم که درآمد این خدمات از کجا تأمین میشه (از فروش اطلاعات! یا دونیت یا…) و هم این که میتونیم روی این نرمافزارها تأثیر بگذاریم و اگر برای حریم خصوصی خودمون و دیگران ارزش قائل هستیم اونها رو ویرایش کنیم.
سخن پایانی
این طومار بلند و بالا حرفها و حقایقی هستند که شاید به واسطهٔ موضوع بحث و در کنار هم قرار گرفتنشون کمی بوی توهم توطئه بگیرن یا حتی با درگیر کردن ذهن شما ناخواسته بهتون انرژی منفی وارد کرده باشم! ولی متأسفانه اینها حقایق تلخی هستند که امکان دارند و هم در حال استفاده هستند. این مطالب برای یک بحث سرپایی با اون دوستی که میگه «اطلاعات من ارزش ندارن» طولانی و با جزئیات هستند ولی لازمه که مردم از اون آگاه باشن.
پیامرسان تلگرام، محبوبیت زیادی بین کشورهایی مانند ایران داشته و دارد. بسیاری آن را به واتساپ ترجیح میدهند و بر این باورند که تلگرام از واتساپ امنتر و آزادتر است و همچنین فضای ابری برای ذخیرهٔ پیامها و فایلهای ارسالی ارائه میدهد برخلاف واتساپ که به نظر میآید پروندهها (فایلها) و تصاویر را در سرورهایش (کارسازهایش) ذخیره نمیکند.
همچنین عدهای آزاد و متنباز بودن کلاینتهای (کارخواهها) تلگرام را دلیلی بر امن بودن آن میدانند. واتساپ برخلاف تلگرام رمزگذاری سراسری دارد به این معنی که تنها فرستنده و گیرندهٔ پیام میتوانند دادههای ردّ و بدل شده را بخوانند و حتی خود واتساپ که این دادهها را انتقال میدهد نمیتواند شنود کند. با این حال با توجه به این که کد منبع کلاینتهای واتساپ در دسترس نیست، نمیتوان این مورد را مطمئن بود.