우리 LECL의 저장소 공간이 상당히 빨리 줄어 들어 가고 거기다가 남은 용량도 얼마 안 되기에 이번 10월 25일을 작업일로 잡고 공지 올리고 작업을 시작했다.
하는 김에 파워 서플라이의 팬도 좀 볼겸 해서 손을 보기 시작했는데 이게 0시 정각에 시작해서 3시 쯔음에야 끝이 났다. 그렇지만 결국 고치지는 못했다. 뭐 중간에 내부 청소도 좀 하고 그러긴 했지만 너무 시간을 버렸다.
일시적인 방편으로 RAID 0으로 묶기로 하고 백업은 일시적으로 다른 시스템에 네트웍을 통해 하기로 계획했었다. 그래서 기존에 사용하던 데이터 디스크와 백업 디스크를 RAID 하려고 남는 S-ATA/RAID 컨트롤러를 서버에 삽입하고 RAID 0으로 묶는 것을 십여번 시도했으나 계속 실패했다. 정확히 말하면 RAID를 설정하는 도중에 컴퓨터가 멎어 버리는 것이다. 그 뒤로 그 원인을 찾기 위해 별 방법을 다 썼다. 그러다가 "아무래도 안되겠다." 싶어서 Linux의 RAID Transport를 사용해서 구성해 보려고 시도했다.
역시 여기까지도 좋았다. 그런데 그러고 나서 RAID된 볼륨으로 백업한 자료를 다시 복원하는 과정에서 계속 서버쪽에서 오류가 발생하고 서버쪽의 프로세스가 무작위로 죽는 것이었다. 주로 활동이 활발하게 일어나는 프로세스가 그랬다. 나는 이게 메모리 부족이나 RAID를 하기에 적합하지 않은 상황에서 RAID로 묶으려고 해서 발생한 문제인줄 알고 이번엔 어차피 속도는 별로 안 중요하니까 LVM으로 묶자 해서 LVM으로 묶고 실험해 보았다.
그러나 결과는 마찬가지였다. 그래서 RAID로 다시 시도하면서 chunk size를 바꿔 보기도 하고 커널 버전도 바꿔 보고 커널을 컴파일하는 컴파일러 버전도 바꿔 보고 하면서 시도했으나 모두 실패했다. 결국 Linux의 RAID Transport는 일단 포기했다.
그 뒤로 이거 저거 알아 보던 도중에 서버 매인보드에서 제공하는 RAID 기능을 확인하고 이것으로 두 디스크를 묶었다. 그러고 나니 리눅스에서 이것을 다른 디스크로 인식하지는 않지만 md0으로 자동 인식했고 여기에 파티션을 설정하고 운용 시험을 시작했는데 역시나 동기화를 다시 하는 과정에서 오류가 발생하면서 프로세스가 무작위로 죽는 현상이 발생하고 동기화도 중간에 실패했다. 결국 문제점은 OS에 있는 것도 아니고 내가 구성한 RAID 방법의 문제도 아니라는 결론을 얻고 하드웨어적인 문제로 간주하고 하드웨어적인 검사 작업에 들어갔다.
왼만한 것들은 전부 점검시에 문제가 발생하지 않았는데 메모리를 시험하는 과정에서 레드스크린을 띄우면서 시험 프로그램이 죽고 시스템 전체도 멎었다. 그래서 시스템에 설치된 3 개의 메모리를 전부 하나 하나 시험한 결과 2 개는 정상이고 나머지 하나에 문제가 있는 것을 발견했다.
결국 불량 메모리는 제거하고 RAID로 구성한 디스크 전체를 검사하고 FS 검사등을 모두 마친 뒤 다시 자료 복원을 시작했다.
그 뒤로 동기화가 다 될 때 까지 중간 중간 상태를 확인했고 그제서야 정상적으로 동작하는 것을 보았다. 결국! 나는 메모리 오류 하나 때문에 거의 24시간에 가까운 시간을 허비하고 고생이란 고생은 다 한 것이다. 거의 24 시간 동안 밥 두 끼 먹은게 다일 정도로 작업하는 시간동안 쉴 틈 조차 없었다. 잠 잔 시간도 5 시간도 안 되는 시간이었다. 아우... 그래서 그런지 몰라도 온 몸이 뻐근하고 고통스럽다. 어깨와 목은 말할 것도 없고 이러다 보니 머리도 무지 아프다 어휴...
이번에 진짜 엄청 삽질을 한 터라 글로 하나 남겨 놔야 겠다 싶어 이렇게 남겨 둔다.
PS: 이 작업을 하는 동안 옆에서 기다려 주고 도와준 영운이형, 현종이 그리고 손님으로 오셔서 밥도 몇 번 제대로 못 드신 한 분께 정말 죄송하고 그러면서도 감사한 마음이 든다.
댓글을 달아 주세요