Про зберігання інформації в ДНК і віруси

Як влаштована ДНК
Як зчитують ДНК
ДНК і зберігання довільної інформації
Повернемося до вірусів

Чи пам'ятаєте ви вихідне значення слова «вірус»? Так-так, я маю на увазі той самий біологічний об'єкт, в честь якого отримали свою назву шкідливі комп'ютерні програми, що поміщають свій код всередину інших файлів з метою відтворення і поширення .

Цілком ймовірно, що в доступному для огляду майбутньому значення цього слова стосовно до комп'ютерних даних отримає своє оригінальне значення. Справа в тому, що цього літа дослідникам з Microsoft і Університету Вашингтона вдалося зробити те, що не вдавалося зробити до них нікому, - записати 200 Мбайт даних у вигляді послідовності нуклеотидів , Що входять до складу штучно створеної ДНК.
Цілком ймовірно, що в доступному для огляду майбутньому значення цього слова стосовно до комп'ютерних даних отримає своє оригінальне значення

Яке відношення до цього мають віруси? Та прямий! Віруси впроваджують свій генетичний код в ДНК клітин уражених організмів, змушуючи їх відтворювати себе, а не корисні для організму білки (нагадаю, що життя, як вчили нас класики, - це форма існування білкових тіл).

Особливо агресивні віруси настільки заважають нормальній роботі ураженого ними організму, що в підсумку призводять до його смерті. Точно так же особливо неприємний шкідливий код може привести до неможливості використовувати уражену інформаційну систему.

Тому, якщо вже людство починає активно записувати інформацію у вигляді ДНК, мабуть, варто задуматися про захист інформації на «апаратному рівні». Для початку розповімо вам, як влаштовано «залізо», з яким нам доведеться мати справу.

Як влаштована ДНК

ДНК, або дезоксирибонуклеїнової кислоти, - це носій генетичної інформації і за сумісництвом - найбільша молекула в нашому організмі. Якщо використовувати аналогії зі сфери інформаційних технологій, це такий штамп завантаження операційної системи. На підставі ДНК синтезуються РНК - РНК, які відіграють роль програм для синтезу білків ( «виконуваних модулів» в комп'ютерних термінах), з яких і складаються всі живі організми і які відповідають за перебіг фізіологічних процесів на молекулярному рівні.

Всі ознаки організму, починаючи від кольору волосся і очей і закінчуючи схильністю до спадкових захворювань, записані в ДНК. Записані вони у вигляді послідовності нуклеотидів - молекулярних блоків, що містять в собі всього лише чотири різновиди азотистих основ: аденін, гуанін, тимін, цитозин. Це такі біологічні біти.

Як бачите, на відміну від людини, матінка-природа використала не двійкову систему числення, а четверичной. До речі, природа добре подбала про захист від збоїв - у більшості живих істот ДНК являє собою не одну, а дві ланцюжка нуклеотидів, закручені один навколо одного як кручена пара в подвійну спіраль.

Тримаються ці два ланцюжки один за одного водневими зв'язками, які утворюються тільки в тому випадку, якщо з кожної зі сторін розташований строго певний нуклеотид, - таким чином автоматично гарантується взаємне відповідність інформації в кожній з двох спіралей. На цьому і заснований перший механізм захисту від збоїв: при розшифровці або реплікації ДНК використовується одна з двох спіралей, а друга грає роль контрольної - на той випадок, якщо раптом якась послідовність нуклеотидів, які кодують той чи інший генетична ознака, опинилася в одній з спіралей пошкоджена.

Крім взаємної відповідності двох ланцюжків нуклеотидів кодування спадкових ознак додатково проводиться із застосуванням надмірної алгоритму - можна сказати, що кожен спадковий ознака, записаний у вигляді послідовності біологічних бітів - підстав, додатково забезпечений контрольної сумою.

За ті півстоліття, що пройшли з моменту відкриття ДНК, ці послідовності досить непогано вивчені, що дозволяє будь-якому охочому замовити розшифровку основних генетичних ознак власної ДНК онлайн, причому не тільки в найближчій лабораторії, а й в Інтернеті - за допомогою сервісу 23andme і аналогічних йому.

Як зчитують ДНК

Тепер про те, як інформацію ДНК зчитують. Спочатку в розпорядженні вчених були такі методи, як рентгенівський структурний аналіз, сімейство спектроскопических методів і мас-спектрометрії. Всі ці методи непогано працюють для невеликих молекул, що складаються з двох, трьох, чотирьох атомів, але все стає сильно складніше, коли кількість атомів дійсно велике.

Однак ДНК не дарма вважають найбільшою молекулою в нашому організмі - в людській ДНК з гаплоидной клітини міститься близько 3 млрд пар основ. Її молекулярна маса на кілька порядків більше молекулярної маси найбільшого з відомих науці білків.

Загалом, це неймовірно величезна купа атомів, тому на розшифровку даних при використанні класичних методів зчитування навіть сьогодні, із застосуванням суперкомп'ютерів, легко йдуть місяці, а то й роки.

Але вченим вдалося придумати метод секвенування , Який сильно прискорює процедуру. Основна його ідея - розбиття однієї довгої послідовності атомів на багато коротких фрагментів, які можна аналізувати паралельно, тим самим кратно збільшуючи швидкість розшифровки.

Для секвенування біологи використовують «молекулярні машини» - спеціальні білки (ензими) полімерази . Основна функція цих білків - копіювання ДНК. Роблять вони це, послідовно проходячи вздовж спіралі і збираючи з нуклеотидів ідентичну молекулу.

Але оскільки нам потрібна не просто повна копія ДНК, а нарізка на короткі фрагменти, то додатково використовують так звані праймери і маркери - з'єднання, що повідомляють полімеразі, де почати клонувати, а де закінчити.

Праймери представляють собою чітко визначену послідовність нуклеотидів, яка приєднується до ланцюжку лише там, де зустрічає «відповідну» комбінацію. Полімераза знаходить праймер, «сідає» на ланцюжок нуклеотидів і починає добудовувати її з компонент, які поміщені в розчин. І робить це до тих пір, поки не зустріне маркер - модифікований нуклеотид, на якому подальша «добудова» ланцюжка обривається.

Певну проблему представляє той факт, що в рамках цього методу неможливо вказати точні «адреси» почала і кінця клонування, а вказати можна лише ті послідовності «бітів», з яких починається і якими закінчується виділення фрагмента.

Якщо говорити в комп'ютерних термінах, то відбувається це наступним чином. Припустимо, у нас є комбінація біт 1101100001010111010010111. Припустимо, що нашим праймером є комбінація 0000 а маркером - комбінація 11. В результаті секвенування ми отримаємо наступний набір фрагментів, в порядку убування їх ймовірності: 0000101011, 00001010111, +0000101011101001011, +00001010111010010111.

Варіюючи праймер і маркер, ми в кінцевому підсумку переберемо всі можливі комбінації біт, вважаємо їх, а після зчитування відновимо з окремих фрагментів всю послідовність.

Виглядає трохи складно і неочевидно, але це дійсно працює і забезпечує непогану швидкість, оскільки в результаті всі необхідні дії можна робити паралельно. Непогана швидкість за мірками біологів - це кілька годин. Істотно краще вищезазначених місяців або навіть років, але за мірками ІТ, скажімо так, забагато.

ДНК і зберігання довільної інформації

Навчившись за півстоліття непогано зчитувати інформацію з ДНК, залишалося навчитися синтезувати ланцюжка нуклеотидів. Тут треба уточнити, що дослідники Microsoft були не першими, хто записав інформацію у вигляді подвійної спіралі ДНК. Першими були вчені з європейського інституту біоінформатики ( EMBL-EBI ), Кілька років тому записали 739 Кбайт.

У чому ж новизна досягнень Microsoft? По-перше, в істотному збільшенні обсягу записи - до 200 Мбайт. Вже досить близько до тих 750 Мбайт, які містяться в ДНК людини. Втім, головна інновація полягає в тому, що дослідники запропонували спосіб, що дозволяє зчитувати не всю ДНК цілком, а її окрему ділянку - близько 100 бітів-підстав за одну операцію.

А домоглися вони цього шляхом використання таких пар праймерів і маркерів, які забезпечують копіювання полимеразой - і подальше зчитування - блоку даних строго певного розміру, розташованого за певною адресою щодо початку «файлу» - ланцюжки нуклеотидів. Це все ще не зовсім повний аналог довільного доступу до пам'яті, але досить близький до нього по блоках читання.

Поки вчені вважають, що основною нішею подібного використання ДНК можуть стати модулі пам'яті високої щільності, призначені для тривалого зберігання інформації. У цьому є сенс - щільність запису даних в кращих сучасних зразках флеш-пам'яті досягає десятків квадрильйонів (~ 1016) біт на кубічний сантиметр, в той час як щільність зберігання даних в ДНК на три порядки вище: десятки квінтильйонів (~ 1019) біт на кубічний сантиметр .

Додаткова перевага полягає в тому, що молекули ДНК досить стабільні і, з урахуванням алгоритмів корекції помилок, дозволяють зберігати інформацію роками, а то й століттями.

Повернемося до вірусів

Що це означає з точки зору інформаційної безпеки? А означає це, що цілісності записаної в такому відео інформації загрожують організми, які спеціалізуються на псування даних вже мільярди років, - віруси.

Звичайно, очікувати появи спеціальних генно-модифікованих вірусів, заточених «полювати» саме на подібні ДНК, в які записана якась інформація, не варто. Просто тому, що модифікувати дані, впроваджуючи в них шкідливий код, простіше, поки ці дані представлені в чисто цифровому вигляді - ще до запису в ДНК.

А от чи треба буде думати про захист від звичайних вірусів, працюючи з таким запам'ятовуючим пристроєм, - питання відкрите. Адже якщо в розчин з ДНК потрапить, наприклад, вірус нежиті, полімераза, швидше за все, буде реплицировать і його теж.

Тому як би не довелося, прочитавши ДНК-чіп років через десять після його записи, згадувати, чи не чхала чи лаборантка під час запису важливого архівного документа.

Яке відношення до цього мають віруси?
У чому ж новизна досягнень Microsoft?