SMART - czy dysk do wymiany?

Wszystko związane z jądrem systemowym, sterownikami, sprzętem itp.
marteen
Beginner
Posty: 109
Rejestracja: 21 września 2008, 12:40

SMART - czy dysk do wymiany?

Post autor: marteen »

Witam.

Wczoraj wieczorem zawiesił mi się laptop.
Wyłączyłem go na ostro. Po włączeniu ładuje się ekran bootloadera ale po wybraniu systemu (Windows albo Linux) nic się nie dzieje. Komputer stoi w miejscu (czarny ekran).

Sprawdzałem dzisiaj z livecd programem smartctl stan SMART dysku.

Dostaje coś takiego:
smartctl version 5.37 [i486-pld-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: ST9160827AS
Serial Number: -----
Firmware Version: 3.AAA
User Capacity: 160,041,885,696 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Not recognized. Minor revision code: 0x29
Local Time is: Fri Feb 20 21:10:37 2009 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: ( 426) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
No General Purpose Logging support.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 64) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 253 006 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 100 099 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 758
5 Reallocated_Sector_Ct 0x0033 099 099 036 Pre-fail Always - 76
7 Seek_Error_Rate 0x000f 073 060 030 Pre-fail Always - 23133811
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 546
10 Spin_Retry_Count 0x0013 100 100 034 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 760
187 Unknown_Attribute 0x0032 001 001 000 Old_age Always - 383
189 Unknown_Attribute 0x003a 100 100 000 Old_age Always - 0
190 Temperature_Celsius 0x0022 059 048 045 Old_age Always - 690487337
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 377
193 Load_Cycle_Count 0x0032 095 095 000 Old_age Always - 10111
194 Temperature_Celsius 0x0022 041 052 000 Old_age Always - 41 (Lifetime Min/Max 0/15)
195 Hardware_ECC_Recovered 0x001a 103 064 000 Old_age Always - 158544963
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 17
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 17
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0

SMART Error Log Version: 1
ATA Error Count: 410 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 410 occurred at disk power-on lifetime: 546 hours (22 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 1b 60 59 e0 Error: UNC at LBA = 0x0059601b = 5857307

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 ff 08 1b 60 59 e0 00 00:00:23.836 READ DMA EXT
25 ff 08 1b 60 59 e0 00 00:00:23.824 READ DMA EXT
25 ff 08 1b 60 59 e0 00 00:00:23.824 READ DMA EXT
25 ff 02 95 f0 1f e0 00 00:00:23.808 READ DMA EXT
25 ff 02 8b f0 1f e0 00 00:00:23.808 READ DMA EXT

Error 409 occurred at disk power-on lifetime: 546 hours (22 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 1b 60 59 e0 Error: UNC at LBA = 0x0059601b = 5857307

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 ff 08 1b 60 59 e0 00 00:00:23.836 READ DMA EXT
25 ff 08 1b 60 59 e0 00 00:00:23.824 READ DMA EXT
25 ff 02 95 f0 1f e0 00 00:00:23.824 READ DMA EXT
25 ff 02 8b f0 1f e0 00 00:00:23.808 READ DMA EXT
25 ff 01 8b f0 bf e0 00 00:00:23.808 READ DMA EXT

Error 408 occurred at disk power-on lifetime: 546 hours (22 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 1b 60 59 e0 Error: UNC at LBA = 0x0059601b = 5857307

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 ff 08 1b 60 59 e0 00 00:00:23.836 READ DMA EXT
25 ff 02 95 f0 1f e0 00 00:00:23.824 READ DMA EXT
25 ff 02 8b f0 1f e0 00 00:00:23.824 READ DMA EXT
25 ff 01 8b f0 bf e0 00 00:00:23.808 READ DMA EXT
25 ff 01 4c f0 bf e0 00 00:00:23.808 READ DMA EXT

Error 407 occurred at disk power-on lifetime: 546 hours (22 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 17 53 89 e0 Error: UNC at LBA = 0x00895317 = 8999703

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 ff 39 ff 52 89 e0 00 00:00:29.776 READ DMA EXT
25 ff 39 ff 52 89 e0 00 00:00:29.775 READ DMA EXT
25 ff 39 ff 52 89 e0 00 00:00:29.765 READ DMA EXT
25 ff 08 37 54 89 e0 00 00:00:29.742 READ DMA EXT
25 ff 35 ff 53 89 e0 00 00:00:27.366 READ DMA EXT

Error 406 occurred at disk power-on lifetime: 546 hours (22 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 17 53 89 e0 Error: UNC at LBA = 0x00895317 = 8999703

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 ff 39 ff 52 89 e0 00 00:00:29.776 READ DMA EXT
25 ff 39 ff 52 89 e0 00 00:00:29.775 READ DMA EXT
25 ff 08 37 54 89 e0 00 00:00:29.765 READ DMA EXT
25 ff 35 ff 53 89 e0 00 00:00:29.742 READ DMA EXT
25 ff 35 ff 53 89 e0 00 00:00:27.366 READ DMA EXT

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 545 6298423
# 2 Extended offline Completed: read failure 90% 545 6160431

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Czy to oznacza że pora wymienić dysk?

Jeśli mi może ktoś odpisać w tym temacie to proszę o pomoc.
Awatar użytkownika
lis6502
Member
Posty: 1798
Rejestracja: 05 listopada 2008, 20:14
Lokalizacja: Miasto Szybowców

Post autor: lis6502 »

Ekspertem od SMART'u nie jestem, ale błędy UNC to nienaprawialne błędy powierzchni. Dziwią mnie dwie rzeczy:

Kod: Zaznacz cały

LBA = 0x0059601b = 5857307
UNC at LBA = 0x00895317 = 8999703  
To dość daleko od początku dysku (prawie trzeci i połowa czwartego gigabajta), za daleko jak na błąd GRUB'a (który mógłby usprawiedliwić czarny ekran).

Kod: Zaznacz cały

546 hours (22 days + 18 hours) 
Niecały miesiąc przejechany i badsectory powyskakiwały? Pewnie lapciak doznał wstrząsów, upadł a badsectorów jest więcej.
Maciek_Rutecki
Posty: 93
Rejestracja: 28 czerwca 2006, 20:31
Lokalizacja: Koluszki

Post autor: Maciek_Rutecki »

marteen pisze:5 Reallocated_Sector_Ct 0x0033 099 099 036 Pre-fail Always - 76
marteen pisze:197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 17
Dane z 76 sektorów zostały przeniesione w rezerwowe miejsce na skutek uszkodzeń (badsectory). 17 oczekuje na przeniesienie. Zważywszy ze producenci typowo rezerwują od 40 do 100 sektorów na takie wypadki, to najwyraźniej już nie jest dobrze z dyskiem. Obserwuj te wartości czy nie rosną i rób kopie danych oraz pomyśl o nowym dysku.

Po "Start_Stop_Count" widzę, że to nie jest jakiś stary dysk, co mu się tak nagle stało? No i dysk był taktowany po macoszemu; wielokrotnie był wyłączany z przycisku, lub odcinajac zasilanie.

Trochę zgaduje, ale badsectory są zgrupowane w jednym miejscu, Laptop komuś wypadł z rąk?
marteen
Beginner
Posty: 109
Rejestracja: 21 września 2008, 12:40

Post autor: marteen »

Co się stało z tym dyskiem nie wiem. Zamontowałem go w laptopie rok temu i przez ten cały czas dysk mi w nim działał prawidłowo. Laptop cały czas leżał na biurku, nie mam stacjonarki. Sprawdzałem dysk pod Windowsem narzędziem SEATOOLS segate. Dla testu SMART i SELF TEST mam status FAIL.

Czym w tej sytuacji mogę wyczyścić dysk z danych? Nie chciałbym, żeby ktoś w serwisie miał dostęp do moich rzeczy.
wieszti
Beginner
Posty: 143
Rejestracja: 31 stycznia 2009, 18:28

Post autor: wieszti »

Oczywiście że możesz
marteen
Beginner
Posty: 109
Rejestracja: 21 września 2008, 12:40

Post autor: marteen »

Oczywiście wiem, że mogę, ale zastanawiam się jakim narzędziem to zrobić żeby mieć pewność, że dane zostały usunięte. Nie wiem czy dBAN sobie z tym poradzi.
Awatar użytkownika
lis6502
Member
Posty: 1798
Rejestracja: 05 listopada 2008, 20:14
Lokalizacja: Miasto Szybowców

Post autor: lis6502 »

Ja poradziłem sobie za pomocą wipe2fs. Wymazuje wolne miejsce na dysku, ale nie wiem jak poradzi sobie w takich warunkach.
marteen
Beginner
Posty: 109
Rejestracja: 21 września 2008, 12:40

Post autor: marteen »

Sytuacja jest dziwna.

W programie seatools seagate dysk nie przechodzi testów SMART i SHORT/LONG DSL (Self Test) przechodzi natomiast test który trwa ponad godzinę LONG GENERIC.

Zastanawiam się czy rzeczywiście ten dysk jest uszkodzony. Czym spod linuxa mogę go sprawdzić?? Bo wygląda na to, że po wyzerowaniu normalnie działa.
Maciek_Rutecki
Posty: 93
Rejestracja: 28 czerwca 2006, 20:31
Lokalizacja: Koluszki

Post autor: Maciek_Rutecki »

Zrobić testy możesz za pomocą smartctl, ale powinien wyjść wynik taki sam jak za pomocą narzędzi Seagate.
marteen
Beginner
Posty: 109
Rejestracja: 21 września 2008, 12:40

Post autor: marteen »

Dziwna sprawa.... kupiłem nowy dysk, żeby ten uszkodzony dać do reklamacji.
Po 2 dniach używania dysk piszczy podczas pracy.

SMARTCTL zwraca mi coś takiego:

Kod: Zaznacz cały

smartctl version 5.38 [i486-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is [url]http://smartmontools.sourceforge.net/[/url]

=== START OF INFORMATION SECTION ===
Device Model:     ST9160310AS
Serial Number:    xxxxx
Firmware Version: SD03
User Capacity:    160,041,885,696 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Mon Mar  2 21:12:45 2009 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (  25)	The self-test routine was aborted by
					the host.
Total time to complete Offline 
data collection: 		 ( 723) seconds.
Offline data collection
capabilities: 			 (0x73) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  62) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   112   100   006    Pre-fail  Always       -       47124383
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       44
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       72569
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       6
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       44
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   059   054   045    Old_age   Always       -       41 (Lifetime Min/Max 41/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       22
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       108
194 Temperature_Celsius     0x0022   041   046   000    Old_age   Always       -       41 (0 20 0 0)
195 Hardware_ECC_Recovered  0x001a   054   052   000    Old_age   Always       -       47124383
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      90%         6         -
# 2  Short offline       Interrupted (host reset)      90%         6         -
# 3  Short offline       Interrupted (host reset)      20%         5         -
# 4  Extended offline    Interrupted (host reset)      90%         5         -
# 5  Short offline       Interrupted (host reset)      70%         5         -
# 6  Short offline       Aborted by host               80%         2         -
# 7  Short offline       Completed without error       00%         2         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Czy ten dysk też jest uszkodzony?? działa dopiero 4 dni.
ODPOWIEDZ