
Investigadores del Instituto Tecnológico de Israel (Technion) han desarrollado un método basado en la IA que acelera en tres órdenes de magnitud la búsqueda de datos almacenados en el ADN, al tiempo que mejora la precisión.
La molécula de ADN es la responsable de preservar el código genético de los organismos vivos y está formada por una secuencia de compuestos orgánicos especiales — nucleótidos. Se clasifican en cuatro tipos, denotados por las letras A, C, G y T. A diferencia de la informática tradicional, donde los datos se codifican con sólo dos dígitos (0 y 1), almacenamiento en el ADN se basa en secuencias de cuatro letras, lo que aumenta considerablemente el número de combinaciones posibles.
La colocación de datos en el ADN puede proporcionar un verdadero almacenamiento de información a largo plazo (cientos de miles de años) y una densidad de datos 100 millones de veces superior al almacenamiento digital existente. El almacenamiento de datos mediante esta tecnología requiere la síntesis de ADN — la creación de moléculas de ADN basadas en secuencias que codifican información. Para leer los datos almacenados se necesita Secuenciación del ADNMétodo para determinar la estructura primaria de biopolímeros no ramificados como el ADN. El término también se utiliza para describir la determinación de la estructura primaria de otros tipos de datos.
El almacenamiento de información en el ADN conlleva varios retos tecnológicos. La síntesis y la secuenciación son procesos largos propensos a errores de eliminación, inserción y sustitución. Debido a las limitaciones del proceso de síntesis, se crean múltiples copias de cada molécula de ADN que codifica datos. Estas copias se almacenan juntas, sin ningún orden en particular. Durante la secuenciación, se producen muchas copias erróneas de estas moléculas — la mayoría contienen errores y algunas desaparecen por completo.

Nueva investigación, publicado en la revista Nature Machine Intelligence, presenta una solución computacional integral para encontrar y corregir errores en sistemas complejos de almacenamiento basados en el ADN. Mediante algoritmos avanzados y técnicas de codificación, los investigadores demostraron que su solución reduce de días a 10 minutos el tiempo necesario para buscar y leer datos.
El método DNAformer desarrollado por el Technion se basa en un modelo transformador entrenado con datos simulados generados por un simulador también desarrollado por el Technion. El método reconstruye secuencias de ADN exactas a partir de copias erróneas. Incluye un código especial de corrección de errores adaptado al ADN.
Un mecanismo adicional de margen de seguridad detecta las secuencias de ADN más ruidosas (señales no deseadas o errores que se producen durante el proceso de secuenciación y que pueden interferir en la interpretación exacta de los datos) y aplica herramientas algorítmicas para un procesamiento más eficiente. Al final del proceso, los datos se convierten en información digital.
El nuevo método permite leer 100 MB de datos a una velocidad 3.200 veces superior a la del método más preciso disponible sin perder exactitud. En comparación con los métodos rápidos conocidos hasta ahora, DNAformer también mejora la precisión hasta en un 40%. Esto se demostró en un conjunto de datos de 3,1 MB que incluía una grabación de audio de 24 segundos de las palabras del astronauta Neil Armstrong en la Luna, un texto escrito en el que se discutían las ventajas del ADN como método prometedor de almacenamiento de datos, y datos aleatorios.
Los investigadores tienen previsto desarrollar versiones individuales de DNAformer adaptadas a distintas necesidades. Destacan que su tecnología es escalable y adaptable, lo que significa que puede optimizarse para aplicaciones de almacenamiento de datos a gran escala en respuesta a las demandas del mercado.
Fuente: TechXplore
Spelling error report
The following text will be sent to our editors: