خانه / مسائل فنی / مموری ارور چیه؟

مموری ارور چیه؟

همونطور که توی پست های قبلی یه اشاره ای کردم برای این که ببینیم مموری ها در دمای مناسبی کار می‌کنن یا نه یکی از پارامترهایی که میشه بهش نگاه کرد میزان ارورهای مموری ها هستش.

ولی این مموری ارور ها دقیقا چی هستن؟
به این مموری ارورها به صورت دقیق تر ارورهای EDC میگن. یعنی ارورهایی که پیدا شده و بعدش اصلاح شدن Error detection and correction). یعنی ارورهایی که داخل مموری ها رخ دادن ولی مموری کنترلر (integrated memory controller (IMC)) اونها رو پیدا کرده و اصلاح کرده.

آیا مموری ارورهایی که توی نرم افزار HWiNFO می‌بینیم لزوما خطرناک هستن؟
لزوما نه! مموری ارورهایی که ما می‌بینیم نشون میده مموری کنترلر تونسته چه میزان ارور رو اصلاح کنه. وقتی شما مموری ارور رو مشاهده می‌کنید حداقل خیالتون از این بابت راحت هستش که مدارهای EDC دارن صحیح کار میکنن.

پس مشکل مموری ارور ها چیه؟ چرا باید نزدیک به 0 مموری ارور رو نگه داریم تا جای ممکن؟
چون ما ارورهایی رو می‌بینیم که این وسط پیدا شدن و اصلاح شدن! ولی اگر وسط این میلیون ها ارور در دقیقه یک ارور پیدا نشه در نتیجه اصلاح نشه میتونه منجر به کرش سیستم و کارت بشه! پس دلیل این که باید EDC ها رو نزدیک به صفر نگه داریم خود EDC ها نیستن بلکه اون ارورهایی هستن که ممکنه EDC نباشن اصلا. پس هرچی مموری ارور بیشتر بشه داریم به سمت پرتگاهی به اسم غیرپایداری (instability) سیستم میریم. و از طرف دیگه حتما مموری ها دچار مشکلی شدن که این ارورها رخ میدن، اون مشکلی که ایجاد شده میتونه در درازمدت به مموری ها آسیب بزنه.

آیا فقط دمای مموری ها باعث ارور میشه؟
خیر. عوامل متعددی هستن که باعث مموری ارور میشن برای مثال موارد زیر:
1. وقتی گرافیک شروع به کار میکنه. به خاطر تغییر سریع فرکانس.
2. وفتی فرکانس مموری ها خیلی زیاد باشه و دیتاهای اشتباه ایجاد بشه.
3. وقتی دمای مموری ها در حدی زیاد باشه که مموری نتونه درست عمل کنه.
4. وقتی ولتاژ مموری خیلی کم باشه. (احتمالا توی کارتهای Polaris این توی vrm ها قابل تغییر نباشه. درست میگم یا نه؟ دقیق نمیدونم)
5. به صورت تصادفی (غیر محتمل هستش ولی احتمالش 0 نیست)
6. وقتی تایمینگ ها خیلی نزدیک به هم باشن یا حتی یکی باشن (که توی ماینینگ این حالت رو داریم)
7. افزایش ناگهانی جریان
8. وقتی ولتاژ یکدست نباشه و نوسان داشته باشه. میشه با تنظیم صحیح ولتاژ یا از طریق مد بایوس تا حدی جلوی این حالت رو گرفت)

این ارور ها چه تاثیری در ماینینگ ممکنه داشته باشن؟
ما داریم درباره ارورهایی که بین ارتباطات مموری ها و مموری کنترلر رخ میده صحبت می‌کنیم. دلایل بالا ممکنه مختلف باشن ولی راه حل همیشه یکی هستش؛ دیتا دوباره ارسال میشه، دوباره و دوباره تا وقتی که دیتای سالم برگرده.
این قضیه مشخص میکنه چرا کم کردن اورکلاک مموری ها تا وقتی مموری ارور نزدیک به 0 باشه مهمه. چون ممکنه گرافیک شما کرش نکنه ولی وقتی ارور ها خیلی متعدد رخ بدن کارت باید زمان زیادی رو صرف تصحیح ارورها کنه تا ارسال داده صحیح!
این میتونه باعث کند شدن تبادل داده بین اجزای کارت بشه و در ابتدا باعث به اصطلاح stale share بشه (زمان زیادی طول بکشه تا دیتا تصحیح بشه و بعد از بلاک تایم به جواب برسیم) و یا در حالت بدتر باعث ایجاد invalid share بشه (ارور ها نتونن تصحیح بشن) یا در وضعیت بدتر باعث فریز شدن سیستم و کرش کردن ریگ بشن.

همه اینایی که گفتی به نظرم چرت و پرته! من کلی مموری ارور دارم ولی هش ریت موثر بالایی هم توی استخر دارم! اینو چی میگی؟
1. توی ماینینگ پیدا کردن نانس و یا job های استخر علاوه بر قدرت هش ریت مقدار زیادی به میزان شانس (chance) هم بستگی داره. شاید شما آدم خوش شانسی باشید، همه لزوما اینطور نیستن.
2. ممکنه ارورها تفاوت فاحشی توی میزان هش ریت موثر ایجاد نکنه ولی این ارورها قطعا نشانگر یه مشکلی هستن که در درازمدت میتونن آسیب بزنن به مموری ها.
3. هر کارت یه ظرفیت و سقف مشخص برای EDC داره که توی کارتهای مختلف میتونن متفاوت باشن. این که یک کارت تا چه میزان بتونه بدون کاهش هش ریت ارور ها رو تصحیح کنه متفاوته.

وقتی مموری ارور داریم چه چیزهایی رو باید چک کنیم؟ (به ترتیب)
1. یک بار سیستم رو ریبوت کنید. خیلی وقتها همین ریبوت ساده میتونه خیلی مشکلات رو حل کنه!
2. اگر در ابتدای مسیر اورکلاک کارت ها هستید بعد از اعمال تنظیمات، ممروی ارور رو چک کنید. اگر مموری ارور زیادی در ثانیه (میلیونی) داشتید، مموری کلاک رو 50 مگاهرتز کاهش بدید و ماینر رو اجرا کنید ببینید ارور ها کم شدن یا نه. اگر در حد صد تا هزار در ثانیه مموری ارور داشتید فرکانس رو به صورت پلکانی 10 مگاهرتز کاهش بدید تا به وضعیت مطلوب برسید. اصولا کارت ها دیگه حوالی فرکانس 2000 مگاهرتز دیگه نباید مموری اروری داشته باشن مگر این که مشکل برقرسانی رخ داده باشه. (البته در حد چند مموری ارور هر چند ثانیه یک بار مورد خاصی نداره)
3. اگر vrmها جداگونه برای مموری ها ولتاژ رو اعمال میکنن ولتاژ رو مقداری بالا ببرید در حد 20 – 50 میلی ولت و ماینر رو دوباره اجرا کنید. ببینید ارور ها کمتر میشن یا نه. در غیر این صورت اگر vrm ها ولتاژ رو به صورت کلی اعمال میکنن باید به ناچار مقداری ولتاژ هسته رو اضافه کنیم.
4. اگر مشکل حل نشد سعی کنید احتمالا مشکل از دمای مموری هاست. با مواردی که در پست های قبلی توضیح داده شده دمای مموری ها رو تا حدی که میتونید کاهش بدید.

و به عنوان نکته آخر: اگر دیدید مموری ارور دارید زیاد وحشت زده نشید. این که EDC دارید یعنی مموری کنترلر داره درست عمل میکنه. چیزی هم که به طور تجربی دیدم بسته به کارت گرافیک روزانه تا چند هزار ارور هم مشکل share و غیرپایداری در سیستم ایجاد نمیکنه ولی شرط عقل هستش که ارورها رو به صفر نزدیک کنید.

اگر این مطلب برای شما مفید بود می‌توانید برای تشکر به آدرس‌های زیر ارز دیجیتال ارسال نمایید:

ETH, ETC, UBQ:
0x2E32cC6301BFD64359484C4D015BE9f66Ed58ec2

XMR:
48dw6v23itw5ACYkv4PZ1pKvEuLVnYNEvQxga5uQgyuEdbzBxy6Xb2WX1mTvD1mECzGCo9vFvA7iCN72iYatuXuuCoxM1Ci

همچنین ببینید

رم RAM

حافظه تصادفى یا RAM نوعی حافظه برای ذخیره‌سازی موقت اطلاعات هستش. رم به داده‌های ذخیره …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *