Новости
Разработан алгоритм «фонтан ДНК» с рекордной плотностью хранения – 215 петабайт данных в одном грамме ДНК
56

Разработан алгоритм «фонтан ДНК» с рекордной плотностью хранения – 215 петабайт данных в одном грамме ДНК

Разработан алгоритм «фонтан ДНК» с рекордной плотностью хранения – 215 петабайт данных в одном грамме ДНК

Команда ученых из Колумбийского университета и Нью-Йоркского центра генома (NYGC) продемонстрировали, что алгоритм, предназначенный для потоковой передачи видео на смартфоне, может практически полностью раскрыть потенциал ДНК в хранении и сжатии дополнительной информации в четырех нуклеотидных основаниях. Научная работа, посвященная данному необычному исследованию, была опубликована в журнале Science 3 марта 2017 года.

Для своего эксперимента по кодированию и записи данных в ДНК Янив Эрлих и его коллега Дина Зелински выбрали шесть разных файлов– компьютерную операционную систему KolibriOS, французский фильм 1896 года «Прибытие поезда на вокзал Ла-Сьота», код 50-долларовой подарочной карты Amazon, компьютерный вирус, изображения с пластинок «Пионера» и исследование Клода Шеннона в области теории информации 1948 года.

Ученые сначала собрали все файлы в кучу, а затем поделили данные на короткие строки двоичного кода. С помощью фонтанных кодов, они случайным образом упаковали строки в «капли» фонтана – блоки и конвертировали сочетания 00, 01, 10, 11 в четыре нуклеотидных основания: аденин (А), цитозин (С), гуанин (G) и тимин (Т). Чтобы затем собрать эти блоки воедино, команда ученых добавила метки для каждой «капли». Используемые учеными алгоритм получил название «фонтан ДНК».

Всего исследователи сгенерировали около 72 тысяч таких цепочек ДНК, каждая из которых содержала в себе приблизительно 200 оснований. Эту информацию они собрали в текстовый файл и отправили его в Сан-Франциско, где стартап Twist Bioscience, занимающийся синтезом ДНК, превратил цифровые данные в биологические. Две недели спустя команда Эрлиха получила пробирку с молекулами ДНК.

Используя технологии секвенирования для чтения нитей ДНК и специальное ПО для перевода генетического кода обратно в двоичный файл, они успешно восстановили файлы. Сколько занимает чтение и запись, ученые не уточняют.

 

В рамках эксперимента ученые также показали, что алгоритм, умножая образец ДНК с помощью полимеразной цепной реакции, может сгенерировать и безошибочно восстановить практически неограниченное количество копий образца, и даже копий его копий. Но куда более впечатляющей выглядит другое достижение ученых – разработанный ими алгоритм позволяет разместить 215 петабайт данных в одном грамме ДНК – в 100 раз больше, чем удалось достигнуть при помощи других методов и алгоритмов.

Эрлих запускает операционную систему на виртуальной машине и играет в «Сапера»

Емкость хранения данных ДНК теоретически ограничена двумя цифрами для каждого нуклеотида, а также биологическим устройством ДНК. Кроме того, чтобы собрать и прочитать записанные фрагменты, требуется включить дополнительную информацию, что впоследствии снижает емкость до 1,8 двоичных символов в нуклеотиде. Алгоритм «фонтан ДНК» позволяет разместить в среднем 1,6 бит в каждом нуклеотиде – это на 60% больше, чем удавалось ранее, а также близко к пределу в 1,8 бит.

Главным препятствием на пути широкого распространения технологии остается ее высокая стоимость. Исследователи потратили $7 тыс., чтобы синтезировать ДНК и заархивировать 2 МБ данных, еще $2 тыс. ушло на расшифровку. И если стоимость секвенирования ДНК постепенно снижаться, то ее синтез все еще обходится в круглую сумму.

Эрлих и его команда предлагают решение: снизить цену на синтез ДНК можно, использовав молекулы более низкого качества, затем задействовав стратегию кодирования по типу «фонтана ДНК» для исправления молекулярных ошибок.

 

Источник: GT

  • Сама идея и общие соображения о возможностях записи, хранения и поиска информации в молекулах ДНК принадлежат Михаилу Нейману – советскому ученому-физику. В 1964 году в журнале «Радиотехника» был опубликован материал, в котором описывалась технология этого процесса и устройство хранения данных – олигонуклеотиды Неймана (MNeimON).
  • Это уже не первое подобное исследование. В 2012 году генетикам из Гарвардского университета удалось закодировать черновик книги из 53,4 тысяч слов, 11 изображений и одну программу. А год спустя исследователям Европейского института биоинформатики удалось сохранить, а затем полностью извлечь и воспроизвести около 0,6 мегабайт текстовых и видеофайлов.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: