Рост значения S.M.A.R.T. ‘Hardware ECC Recovered’
Не первый раз наблюдаю картину, когда абсолютно новые компы, без разгона, укомплектованные материнкой ASUS и винтом Seagate, показывают неуклонный рост параметра SMART «Hardware ECC Recovered».
В принципе можно не обращать внимания на это — все отлично работает, но. не дает покоя мысль: раз значение параметра растет, значит, винт получает ошибки по каналу передачи данных, что может привести к проблемам вплоть до потери данных.
Кто-нибудь сталкивался с этим? Что делали в подобных случаях?
P.S.: шлейфы менялись — проблема остается. Бывает, что винт на любых материнках так себя ведет; бывает, что материка с любыми винтами Seagate (у Samsung и Hitachi такого параметра SMART нет, с другими — не проверял) — тут, собственно, ясно, что проблема либо в матери, либо в винте (хотя до конца все же неясно).
Решение вроде бы очевидно — либо взять другую материнку, либо винт, либо то и другое. Но как объяснить клиенту, ПОЧЕМУ это нужно сделать?
Проверка жесткого диска на наличие ошибок
И является ли подобная «проблема» поводом для замены винта или материнки? Но даже если магазин пойдет навстречу и обменяет товар, может получиться, что проблема останется. Как быть?
Источник: price-altai.ru
Нескорректированные ecc кодом ошибки
Программа ориентирована на широкий круг пользователей ПК, и предназначена для тестирования, сервисного обслуживания и получения технической информации с любых жестких дисков с интерфейсами IDE и Serial ATA. Программа представляет собой полностью готовое решение для всесторонней, глубокой, и в тоже время максимально быстрой оценки реального технического состояния HDD.
В ней собраны возможности большинства фирменных диагностических утилит для HDD, и другие полезные функции, имеющиеся в ATA стандарте на современные жесткие диски, однако нет ограничений на поддерживаемые модели.
Автор программы, Sergei_Kazanskij, у нас на форуме! Желающие могут поддержать проект через сайт Виктории.
Старые версии
Цитата:
У 190-го атрибута, и не на всех винтах, есть сопутствующий параметр, который пропорционален температуре, но у него другой порядок (как на скрине). Используйте синий график для градусов Цельсия. |
В новой версии Victoria 5.28 стало понятно и синий график выставлен по-умолчанию.
Цитата:
Согласен, предлагайте свой вариант перевода) |
Sergei_Kazanskij
А мне перевод нравится
Очень точно отражает смысл на русском языке.
Как починить SSD с битыми секторами? — используем программу Victoria
Сергей, у меня к Вам два предложения.
1. Можно ли сделать так, чтоб программа повторно не запускалась вторым экземпляром,
если уже запущена и мониторит в трее.
А при случайной попытке запустить с ярлыка уже запущенный экземпляр просто всплывал из трея.
2. Можно ли сделать так, чтоб программа снимала показания смарта не только выбранного диска,
но и всех дисков в системе ? Или сделать это как опцию.
Verify error: Timeout
1. Пункт «DDD (API)» и «нумеровать». Когда необходимо их активировать?
2. На вкладке INFO после строки SIZE (значение — «2 Тб») имеется красная строка API SIZE (значение — «-5102»). Это что-то важное или не имеет значения?
3. Имеется внешний жесткий (2 Тб Seagate BUP Slim BK).
Над диском в настоящее время производится длительное действие в Виктории. И тем не менее вопрос.
Использую Hard Disk Sentinel Pro для постоянного мониторинга за дисками.
В какой-то момент эта программа показала здоровье -9! Буквально вчера было все здорово, а сегодня здоровье 9?! И это при том, что реально диск отработал за 2 года меньше 10 дней, так как используется для хранения!
И предложила сохранить всю информацию.
Всю информацию я с него перенес (при этом были обнаружены 3 некопирующихся файла) и теперь для сокращения времени, я запустил процесс WRITE. (В теме я прочитал, что это нормальный вариант для диска без информации для приведения его в норму).
Timeout установлен по умолчанию 10000 ms.
Пока найден 1 красный блок с такой информацией:
Warning! Block start at 2436220664 (1,2 TB) = 3838 ms
Block start at 23478265720 Write error : Preset timeout limit.
— этот блок (2436220664) записался нулями? И таким образом восстановился?
— этот блок (23478265720) не записался нулями? И его нужно еще раз пройти, но с другими настройками?
— потому что неправильно указано в настройках значение Timeout?
— какое значение Timeout нужно указывать для режимов : (Игнорировать, Починить, Обновить), а также (Верификация, Запись, Чтение)?
— как вариант, можно было не переносить с диска всю информацию, и запустить режим: Верификация? Починить? Обновить? Какой предпочтительней? приналичии на диске относительно важной информации?
И еще вопрос. Когда-то меня очень подвел один жесткий диск. Он вышел из строя как-то очень внезапно. И я не смог ничего спасти. Для неповторения в будущем подобной ситуации я установил программу для постоянного мониторинга Hard Disk Sentinel Pro.
И вот сейчас она сработала и предупредила меня. Однако, Уважаемый автор в начале этой темы если я правильно его понял, неодобрительно отозвался о программах, которые мониторят состояние дисков в реальном времени. Но если не использовать подобную программу, то как узнать о возможных проблемах?
Цитата:
1. Пункт «DDD (API)» и «нумеровать». Когда необходимо их активировать? |
DDD выявляет искажения данных — делалось в 2006 году для диагностики Сигейтов, на которых по непонятным причинам портились файлы (оказалось, кеш был неисправен). Можно использовать для детекта поддельных флешек, но ещё лучше для них пользоваться программой Bulldog https://disktest.ru/
Нумеровка диска-приёмника нужна для восстановления данных — так сразу видно по номерам, на какие файлы пришлись пропущенные во время копирования места. Также я использую нумеровку для исследования механизмов трансляции накопителей.
Цитата:
2. На вкладке INFO после строки SIZE (значение — «2 Тб») имеется красная строка API SIZE (значение — «-5102»). Это что-то важное или не имеет значения? |
Паспорт берётся с винта, и в нем прописан размер винта. А API-размер это то, что видит Windows с учётом USB-мостов и прочих прослоек между винтом и API.
Цитата:
— этот блок (2436220664) записался нулями? И таким образом восстановился? — этот блок (23478265720) не записался нулями? И его нужно еще раз пройти, но с другими настройками? |
Это видно только Вам. Посмотрите в редакторе.
Цитата:
— как вариант, можно было не переносить с диска всю информацию, и запустить режим: Верификация? Починить? Обновить? Какой предпочтительней? приналичии на диске относительно важной информации? |
Так делать вообще нельзя.
Цитата:
И еще вопрос. Когда-то меня очень подвел один жесткий диск. Он вышел из строя как-то очень внезапно. И я не смог ничего спасти. Для неповторения в будущем подобной ситуации я установил программу для постоянного мониторинга Hard Disk Sentinel Pro. И вот сейчас она сработала и предупредила меня. Однако, Уважаемый автор в начале этой темы если я правильно его понял, неодобрительно отозвался о программах, которые мониторят состояние дисков в реальном времени. Но если не использовать подобную программу, то как узнать о возможных проблемах? |
Насколько я знаю, если на диске есть важная информация, первым делом надо её скопировать, потому что в любой момент диск может отказать. Вообще, если есть сомнения, лучше сразу нести его специалистам, а не пытаться что-то сделать самостоятельно. Посмотрите тему про ремонт HDD — там подобные действия должны разбираться.
1)
Цитата:
Так делать вообще нельзя. |
Это ,конечно, понятно, что любые действия приветствуются , когда вся информация с диска пересохранена в другое место. Вы именно это, как я понял, и сказали- что все функции восстановления нужно использовать на уже пустом диске (или на диске, информация на котором не так уж и важна).
Но. Разве не используют очень часто, к примеру, функцию REMAP или ОБНОВИТЬ для починки некоторых секторов, на диске с информацией? Да, какие-то файлы пропадут, но остальной огромный массив останется и не нужно будет искать место, куда все переносить, и не будет тратиться на это дикое количество времени!
—————————
2)
Цитата:
Лучше всё делать вручную, и очень аккуратно. Для этого и предназначена Victoria. |
Я не совсем это понял. Ведь смысл постоянного мониторинга и заключается именно в том — чтобы вовремя отследить, когда необходимо предпринимать срочные меры. Мой пример очень показателен- вчера здоровье — 100, сегодня -9!
И если я буду проверять Викторией каждый диск хотя бы раз в неделю, даже быстрой проверкой, я не отслежу такой скачок!
Например: Скачок был во вторник, а в воскресенье запланирована проверка. Так диск до восресенья сдохнет несколько раз. Разве я не прав?
Или Виктория уже предоставляет сегодня такую возможность-постоянного мониторинга.
Если нет, то может быть Вы посоветуете наиболее безопасную на Ваш взгляд программу для этой цели?
———————————
3)Все-таки я хотел бы разобраться с установкой значения Timeout.
При превышении устанавливаемого здесь значения — блок признается дефектным.
Но хотелось бы понять алгоритм установки этих пресетов. Поясните, пожалуйста. Какие значения для каких ситуаций нужно устанавливать.
По умолчанию установлено значение 10000 ms.
Нужно ли его менять и в каких случаях?
———————————
4) И последний вопрос касается результатов моего тестирования.
Что все-таки означает мой результ:
187 атрибут — Нескорректированные ECC кодом ошибки — 2441 (красным цветом!)
Что это такое и что мне делать?
——————————-
Еще раз огромное спасибо.
Цитата:
а вот это что бы значило |
под какой системой запускаете?
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 |
Источник: forum.ru-board.com
Что значит Hardware ECC recovered в Victoria?
В смарте жесткого диска hardware ecc recovered высокое значение и одна красная точечка в Victoria. Что это значит?
В смарте жесткого диска hardware ecc recovered высокое значение и одна красная точечка в Victoria.
Hardware ECC recovered 215474369 — Smart
Операционная система(Win 7) начала притормаживать и при вклвыкл ПК от корпуса исходит треск(я.
Куча планок памяти с работы (рабочие, сняты с северов и рабочих станций). Есть pc133, pc133 ecc, ddr1 ecc, ddr2 ecc
есть целая куча планок с работы, результат апгрейда в большой конторе. обычная несерверная.
ECC память vs non-ECC + 1333 vs 1600
Добрый день! Заметил тенденцию собирать пк из б/у комплектующих. Хочу собрать примерно следующее: .
Регистрация: 16.03.2016
Сообщений: 24
4040 / 2505 / 301
Регистрация: 22.04.2012
Сообщений: 10,745
Записей в блоге: 2
195 (C3) Hardware ECC Recovered — Число коррекции ошибок аппаратной частью диска (чтение, позиционирование, передача по внешнему интерфейсу). На дисках с SATA-интерфейсом значение нередко ухудшается при повышении частоты системной шины — SATA очень чувствителен к разгону.
Проц шиной не гнали?диск работает?
Регистрация: 16.03.2016
Сообщений: 24
когда комп запускаю . на самом первом окне где идёт описания всей системы , внизу есть такая надпись Fan error .. про разгон не знаю даже что это .. диск свежий купил месяца два назад .. ос постоянно слетает или выдаёт ошибки требующие то запуска для восстановления то ещё чего то, причём на старом тоже самое было с ос , но вроде 195 пункта не было . кулер работает не равномерно вначале не сразу разгоняется а рывками .. помню раньше всегда сразу крути ..
Добавлено через 4 минуты
не знаю относится ли это к проблеме , у меня материнка с двух канальной системой считывания оперативной памяти ну и 2 планки стоит купленные в разное время разумеется я сильно не утруждался подбирать ибо был далёк от таких ньюансов , да и сейчас поверхностно .. слышал если они разные то могут давать сбои .
4040 / 2505 / 301
Регистрация: 22.04.2012
Сообщений: 10,745
Записей в блоге: 2
Ошибка вентилятора,скорее всего процессора.Проверьте,распознаётся ли он,пробуйте заменить.Но к харду это отношения не имеет. У сигейтов смарт выглядит не как у других производителей. Половину значений можно вообще игнорировать.
Не смотри на RAW значение, смотри на нормализированные. Если они не приближаются к пределу, то все хорошо. RAW значения любого параметра smart в общем случае нужны только инженерам, которые знают технический подробности устройства диска конкретной модели.
Источник: www.cyberforum.ru
Контроль четности и коды коррекции ошибок (ECC).
Ошибки при хранении информации в памяти неизбежны. Они обычно классифицируются как отказы и нерегулярные ошибки (сбои). Если нормально функционирующая микросхема вследствие, например, физического повреждения начинает работать неправильно, то все происходящее и называется постоянным отказом. Чтобы устранить этот тип отказа, обычно требуется заменить некоторую часть аппаратных средств памяти, например неисправную микросхему памяти.
Другой, более коварный тип отказа — нерегулярная ошибка (сбой). Это непостоянный отказ, который не происходит при повторении условий функционирования или через регулярные интервалы.
Приблизительно 20 лет назад сотрудники Intel установили, что причиной сбоев являются альфа-частицы. Поскольку альфа-частицы не могут проникнуть даже через тонкий лист бумаги, выяснилось, что их источником служит вещество, используемое в полупроводниках. При исследовании были обнаружены частицы тория и урана в пластмассовых и керамических корпусах микросхем, применявшихся в те годы. Изменив технологический процесс, производители памяти избавились от этих примесей.
В настоящее время производители памяти почти полностью устранили источники альфачастиц. И многие стали думать, что проверка четности не нужна вовсе. Например, сбои в памяти емкостью 16 Мбайт из-за альфа-частиц случаются в среднем только один раз за 16 лет! Однако сбои памяти происходят значительно чаще.
Сегодня самая главная причина нерегулярных ошибок — космические лучи. Поскольку они имеют очень большую проникающую способность, от них практически нельзя защититься с помощью экранирования.
Эксперимент, проверяющий степень влияния космических лучей на появление ошибок в работе микросхем, показал, что соотношение “сигнал–ошибка” (signal-to-error ratio — SER) для некоторых модулей DRAM составило 5950 единиц интенсивности отказов (failure units — FU) на миллиард часов наработки для каждой микросхемы. Измерения проводились в условиях, приближенных к реальной жизни, с учетом длительности в несколько миллионов машиночасов.
В среднестатистическом компьютере это означало бы появление программной ошибки памяти примерно каждые шесть месяцев. В серверных системах или мощных рабочих станциях с большим объемом установленной оперативной памяти подобная статистика указывает на одну ошибку (или даже более) в работе памяти каждый месяц! Когда тестовая система с теми же модулями DIMM была размещена в надежном убежище на глубине более 15 метров каменной породы, что полностью устраняет влияние космических лучей, программные ошибки в работе памяти вообще не были зафиксированы. Эксперимент продемонстрировал не только опасность влияния космических лучей, но и доказал, насколько эффективно устранять влияние альфалучей и радиоактивных примесей в оболочках модулей памяти.
К сожалению, производители ПК не признали это причиной погрешностей памяти; случайную природу сбоя намного легче оправдать разрядом электростатического электричества, большими выбросами мощности или неустойчивой работой программного обеспечения (например, использованием новой версии операционной системы или большой прикладной программы). Исследования показали, что для систем ECC доля программных ошибок в 30 раз больше, чем аппаратных. Это неудивительно, учитывая вредное влияние космических лучей. Количество ошибок зависит от числа установленных модулей памяти и их объема. Программные ошибки могут случаться и раз в месяц, и несколько раз в неделю, и даже чаще!
Хотя космические лучи и радиация являются причиной большинства программных ошибок памяти, существуют и другие факторы:
1. Скачки в энергопотреблении или шум на линии. Причиной может быть неисправный блок питания или настенная розетка.
2. Использование неверного типа или параметра быстродействия памяти. Тип памяти
должен поддерживаться конкретным набором микросхем и обладать определенной
этим набором скоростью доступа.
3. Электромагнитные помехи. Возникают при расположении радиопередатчиков рядом с
компьютером, что иногда приводит к генерированию паразитных электрических сигна-
лов в монтажных соединениях и схемах компьютера. Имейте в виду, что беспроводные
сети, мыши и клавиатуры увеличивают риск появления электромагнитных помех.
4. Статические разряды. Вызывают моментальные скачки в энергоснабжении, что может
повлиять на целостность данных.
5. Ошибки синхронизации. Не поступившие своевременно данные могут стать причиной
появления программных ошибок. Зачастую причина заключается в неверных парамет-
рах BIOS, оперативной памяти, быстродействие которой ниже, чем требуется систе-
мой, “разогнанных” процессорах и прочих системных компонентах.
Большинство описанных проблем не приводят к прекращению работы микросхем памяти (хотя некачественное энергоснабжение или статическое электричество могут физически повредить микросхемы), однако могут повлиять на хранимые данные.
Игнорирование сбоев, конечно, не лучший способ борьбы с ними. К сожалению, именно этот способ сегодня выбрали многие производители компьютеров. Лучше было бы повысить отказоустойчивость систем. Для этого необходимы механизмы определения и, возможно, исправления ошибок в памяти ПК. В основном для повышения отказоустойчивости в современных компьютерах применяются следующие методы:
— коды коррекции ошибок (ECC).
Системы без контроля четности вообще не обеспечивают отказоустойчивости данных. Единственная причина, по которой они используются, — их минимальная базовая стоимость. При этом, в отличие от других технологий (ECC и контроль четности), не требуется дополнительная оперативная память.
Байт данных с контролем четности включает в себя 9, а не 8 бит, поэтому стоимость памяти с контролем четности выше примерно на 12,5%. Кроме того, контроллеры памяти, не требующие логических мостов для подсчета данных четности или ECC, обладают упрощенной внутренней архитектурой.
Портативные системы, для которых вопрос минимального энергопотребления особенно важен, выигрывают от уменьшенного энергопотребления памяти благодаря использованию меньшего количества микросхем DRAM. И наконец, шина данных памяти без контроля четности имеет меньшую разрядность, что выражается в сокращении количества буферов данных.
Статистическая вероятность возникновения ошибок памяти в современных настольных компьютерах составляет примерно одну ошибку в несколько месяцев. При этом количество ошибок зависит от объема и типа используемой памяти. Подобный уровень ошибок может быть приемлемым для обычных компьютеров, не используемых для работы с важными приложениями. В этом случае цена играет основную роль, а дополнительная стоимость модулей памяти с поддержкой контроля четности и кода ECC себя не оправдывает.
Применение не отказоустойчивых к ошибкам компьютеров рискованно и предполагает отсутствие ошибок памяти при эксплуатации систем. При этом также учитывается, что совокупная стоимость потерь, вызванная ошибками в работе памяти, будет меньше, чем затраты на приобретение дополнительных аппаратных устройств для определения таковых ошибок.
Тем не менее ошибки памяти вполне могут стать причиной серьезных проблем: например, представьте себе указание неверного значения суммы в банковском чеке. Ошибки в работе оперативной памяти серверных систем зачастую приводят к “зависанию” последних и отключению всех клиентских компьютеров, соединенных с серверами по локальной сети. Наконец, отследить причину возникновения проблем в компьютерах, не поддерживающих контроль четности или код ECC, крайне сложно. Последние технологии по крайней мере однозначно укажут на оперативную память как на источник проблемы, тем самым экономя время и усилия системных администраторов.
Контроль четности
Это один из стандартов, введенных IBM, в соответствии с которым информация в банках памяти хранится фрагментами по девять битов, причем восемь из них (составляющих один байт) предназначены собственно для данных, а девятый является битом четности (parity). Использование девятого бита позволяет схемам управления памятью на аппаратном уровне контролировать целостность каждого байта данных. Если обнаруживается ошибка, работа компьютера останавливается и на экран выводится сообщение о неисправности.
Технология контроля четности не позволяет исправлять системные ошибки, однако дает возможность их обнаружить пользователю компьютера, что имеет следующие преимущества:
— контроль четности оберегает от последствий проведения неверных вычислений на базе некорректных данных;
— контроль четности точно указывает на источник возникновения ошибок, помогая разобраться с проблемой и улучшая степень эксплутационной надежности компьютера.
Для реализации поддержки памяти с контролем четности или без него не требуется особых усилий. В частности, внедрить поддержку контроля четности для системной платы не составит никакого труда. Основная стоимость внедрения относится к цене самих модулей памяти с контролем четности. Если покупатели нуждаются в контроле четности для работы с определенными приложениями, поставщики компьютеров могут без проблем предложить соответствующие системы.
К омпания Intel и прочие производители наборов микросхем системной логики внедрили поддержку контроля четности и кода ECC в большинстве своих продуктов (особенно в наборах микросхем, ориентированных на рынок высокопроизводительных серверов). В то же время наборы микросхем низшей ценовой категории, как правило, не поддерживают эти технологии. Пользователям, требовательным к надежности выполняемых приложений, следует обращать особое внимание на поддержку контроля четности и ECC.
Код коррекции ошибок
Коды коррекции ошибок (Error Correcting Code — ECC) позволяют не только обнаружить ошибку, но и исправить ее в одном разряде. Поэтому компьютер, в котором используются подобные коды, в случае ошибки в одном разряде может работать без прерывания, причем данные не будут искажены. Коды коррекции ошибок в большинстве ПК позволяют только обнаруживать, но не исправлять ошибки в двух разрядах.
Но приблизительно 98% сбоев памяти вызвано именно ошибкой в одном разряде, т.е. она успешно исправляется с помощью данного типа кодов. Данный тип ECC получил название SEC)DED (single-bit error-correction double-bit error detection — одноразрядная коррекция, двухразрядное обнаружение ошибок). В кодах коррекции ошибок этого типа для каждых 32 бит требуется дополнительно семь контрольных разрядов при 4-байтовой и восемь — при 8-байтовой организации (64-разрядные процессоры Athlon/Pentium). Реализация кода коррекции ошибок при 4-байтовой организации, очевидно, дороже реализации проверки нечетности или четности, но при 8-байтовой организации стоимость реализации кода коррекции ошибок не превышает стоимости реали зации проверки четности.
Для использования кодов коррекции ошибок необходим контроллер памяти, вычисляющий контрольные разряды при операции записи в память. При чтении из памяти такой контроллер сравнивает прочитанные и вычисленные значения контрольных разрядов и при необходимости исправляет испорченный бит (или биты). Стоимость дополнительных логических схем для реализации кода коррекции ошибок в контроллере памяти не очень высока, но это может значительно снизить быстродействие памяти при операциях записи. Это происходит потому, что при операциях записи и чтения необходимо ждать, когда завершится вычисление контрольных разрядов. При записи части слова вначале следует прочитать полное слово, затем перезаписать изменяемые байты и только после этого — новые вычисленные контрольные разряды.
В большинстве случаев сбой памяти происходит в одном разряде, и потому такие ошибки успешно исправляются кодом коррекции ошибок. Использование отказоустойчивой памяти обеспечивает высокую надежность компьютера. Память с кодом ECC предназначена для серверов, рабочих станций или приложений, для которых последствия потенциальных ошибок памяти менее желательны, чем дополнительные затраты на приобретение добавочных модулей памяти и вычислительные затраты на коррекцию ошибок. Если данные имеют особое значение и компьютеры применяются для решения важных задач, без памяти ECC не обойтись. По сути, ни один уважающий себя системный инженер не будет использовать сервер, даже самый неприхотливый, без памяти ECC.
Пользователи имеют выбор между системами без контроля четности, с контролем четности и с ECC, т.е. между желательным уровнем отказоустойчивости компьютера и степенью ценности используемых данных.
Источник: al-tm.ru