Nowa metoda archiwizacji danych cyfrowych – DNA. – Nowe Technologie Projekty Specjalne

Firmy technologiczne rutynowo budują centra danych do przechowywania wszelakich zdjęć, transakcji finansowych, filmów czy wiadomości e-mail stanowiących bezcenną wartość dla użytkowników. Nowa technika opracowana przez University of Washington (UW) i pracowników naukowych Microsoftu może zmniejszyć przestrzeń potrzebną do przechowywania danych cyfrowych, które dziś byłyby zdolne wypełnić Walmart Supercenter, do wielkości kostki cukru. Zespół informatyków i inżynierów elektroników opracował szczegółowo jeden z pierwszych kompletnych systemów kodowania, przechowywania i pobierania danych cyfrowych z wykorzystaniem cząsteczek DNA, które mogą przechowywać informacje o rozmiarze miliony razy bardziej mniejszym niż obecnie stosowane technologie archiwizacji.
W eksperymencie opisanym w dokumencie przedstawionym w kwietniu na Międzynarodowej Konferencji Architectural Support for Programming Languages and Operating Systems (wsparcia architektury języków programowania i systemów operacyjnych), zespół z powodzeniem zakodował dane cyfrowe z czterech plików graficznych do sekwencji nukleotydowych syntetycznych fragmentów DNA. Co ważniejsze, był również w stanie odwrócić ten proces – pobierając odpowiednie sekwencje z większej puli DNA i rekonstruując obrazy bez utraty jednego bita danych. Zespół również zakodował i odzyskał dane, które uwierzytelniają archiwalne pliki wideo z Biblioteki Głosów UW kompletowane w ramach projektu „Rwanda Tribunal” które zawierają wywiady z sędziami, adwokatami i innymi pracownikami trybunału ds. zbrodni wojennych w Rwandzie.
“Życie stworzyło tę fantastyczną cząsteczkę o nazwie DNA, która skutecznie przechowuje wszystkie rodzaje informacji o genach i jak i działaniu systemu życia w sposób bardzo kompaktowy i bardzo trwały”, powiedział współautor projektu Luis Ceze profesor informatyki i inżynierii UW. “W zasadzie reorientujemy ją obecnie do przechowywania cyfrowych danych – zdjęcia, filmy, dokumenty – w dogodny sposób na setki czy tysiące lat”
Cały cyfrowy wszechświat – wszystkie dane zawarte w naszych plikach komputerowych, archiwach historycznych, filmach, zbiorach fotografii i eksplodującej cyfrowej informacji zebranej przez przedsiębiorstwa i urządzenia na całym świecie osiągną do roku 2020 ponad 44 biliony gigabajtów. To dziesięciokrotny wzrost w stosunku do 2013 i stanowić będzie wystarczającą ilość danych, aby wypełnić więcej niż sześć stosów tabletów komputerowych z Ziemi do księżyca. Chociaż nie wszystkie z tych informacji muszą być zapisane, to jednak faktem jest, że świat produkuje dane szybciej niż możliwości, ich zachowania.
Cząsteczki DNA mogą przechowywać informację zapisaną wiele milionów razy gęściej niż istniejące technologie cyfrowego przechowywania danych – dyski flash, dyski twarde, czy inne nośniki magnetyczne i optyczne. Systemy te również deprecjonują się już nawet po kilku latach czy w najlepszym przypadku dziesięcioleciach, podczas gdy DNA może niezawodnie chronić informacje na wieki. DNA najlepiej nadaje się do zastosowań archiwalnych, nieco gorzej sprawdza się w sytuacjach gdy wymagany jest natychmiastowy dostęp do plików.
Zespół Molecular Information Systems Lab mieszczący się w budynku inżynierii elektrycznej UW, w ścisłej współpracy z Microsoft Research, opracowuje system pamięci masowej opartej na DNA, który – jak się oczekuje – jest w stanie zaspokoić światowe potrzeby przechowywania danych archiwalnych. Badacze opracowali nowe podejście do konwersji długich ciągów jedynek i zer w danych cyfrowych na cztery podstawowe elementy sekwencji DNA – adeniny, guaniny, cytozyny i tyminy. “Sposób przechodzenia z zer i jedynek na As, Gs, Cs oraz Ts jest naprawdę ważny, ponieważ jeśli stosujemy odpowiednią metodę, to informację można zapisać bardzo gęsto przy znikomej ilości błędów”, powiedział współautor metody Georg Seelig, profesor nadzwyczajny elektrotechniki, informatyki i inżynierii UW. “Jeśli robi się to źle, to ilość błędów oczywiście rośnie”. Cyfrowe dane rozdrabnia się na kawałki i przechowuje po zsyntetyzowaniu ogromnej ilości drobnych cząsteczek DNA, które można odwodnić lub w inny sposób przygotować do długotrwałego przechowywania.
Naukowcy UW i Microsoftu są jednym z dwóch zespołów, które wykazały również zdolność do wykonywania losowego dostępu (ang. random access) identyfikacji i pobierania odpowiednich sekwencji z olbrzymiej puli losowych cząsteczek DNA – proces podobny do ponownego złożenia jednego rozdziału opowieści z całej biblioteki podartych książek. Aby uzyskać dostęp do przechowywanych danych, naukowcy muszą również kodować równowartość kodów pocztowych i adresów do sekwencji DNA. Wykorzystują do tego Reakcję Łańcuchową Polimerazy (PCR) – powszechnie stosowaną w biologii molekularnej, która pomaga im w identyfikacji „kodów pocztowych” poszukiwanych danych. Stosując techniki sekwencjonowania DNA, mogą później “odczytać” dane i konwertować je z powrotem do wideo, obrazu lub pliku dokumentu i porządkować za pomocą „adresów ulicznych”.
Obecnie największą barierą opłacalnego przechowywania DNA jest koszt i efektywność z jaką można je zsyntetyzować (lub wytworzyć) i sekwencjonować (lub odczytywać) na wielką skalę. Naukowcy twierdzą jednak, że nie ma już obecnie barier technicznych do osiągnięcia tego celu, o ile będą rzeczywiste chęci do komercyjnej realizacji projektu. Postępy w przechowywaniu DNA opierają się na technikach, których pionierem była branża biotechnologiczna, ale uwzględniają przede wszystkim nową wiedzę. Podczas kodowania zespół zapożyczył np. system korekcji błędów z systemów powszechnie stosowanych w pamięciach komputerowych, które nie były wykorzystywane przez DNA. “To jest właśnie przykład, gdzie pożyczamy coś z natury – w tym przypadku DNA do przechowywania informacji, ale do poprawy błędów używamy już czegoś co znamy z systemów pamięci komputerów”, powiedział Ceze. “Podejście wielodyscyplinarne czyni ten projekt ekscytującym. Czerpiąc ze zbioru różnorodnych dyscyplin naukowych przesuwamy granice tego, co można zrobić z DNA, w rezultacie tworząc system pamięci masowej o niespotykanej gęstości i wytrzymałości”, powiedział Karin Strauss, badacz z firmy Microsoft oraz profesor informatyki i inżynierii UW .
Badania były finansowane przez Microsoft Research, National Science Foundation oraz David Notkin Endowed Graduate Fellowship.
Współautorami są m.in. doktorant informatyki i inżynierii UW James Bornholt, doktoranci bioinżynierii UW, Randolph Lopez oraz Douglas Carmean, partner w Microsoft Research i profesor UW nauk i technik komputerowych.

Wg. Jennifer Langston, University of Washington
ScienceDaily

Nowa metoda archiwizacji danych cyfrowych – DNA.

Leave a Reply Cancel reply