Дієта Вовків на основі метабаркодування ДНК; OBITools 22 документація

Ось підручник з того, як аналізувати дані метабаркодування ДНК, отримані на секвенсорах Illumina, використовуючи:

OBITools
деякі основні команди Unix

Дані, використані в цьому посібнику, відповідають аналізу чотирьох вовчих скатів, використовуючи протокол, опублікований у Shehzad et al. (2012) для оцінки дієти м’ясоїдів. Після вилучення ДНК з фекалій проводили ампліфікацію ДНК з використанням праймерів TTAGATACCCCACTATGC та TAGAACAGGCTCCTCTAG, що підсилюють область 12S-V5 (Riaz et al. 2011), разом з вовком, що блокує олігонуклеотид.

Повний набір даних можна завантажити тут: набір підручників

Це завжди гарна ідея поглянути на проміжні результати або оцінити найкращий параметр для кожного кроку. Деякі команди призначені для цієї мети, наприклад, ви можете використовувати:

Дані¶

Дані, необхідні для запуску підручника, такі:

Файли fastq, отримані в результаті парного кінця (2 х 108 п.о.) парного кінця GA IIx (Illumina) з ДНК, вилученої та посиленої з чотирьох вовчих фекалій:

файл, що описує праймери та теги, що використовуються для всіх послідовностей зразків:

wolf_diet_ngsfilter.txt Теги відповідають коротким і конкретним послідовностям, доданим на 5 ’кінця кожного праймера для розрізнення різних зразків

файл, що містить довідкову базу даних у форматі fasta:

db_v05_r117.fasta Ця довідкова база даних витягнута з випуску 117 EMBL за допомогою ecoPCR

таксономія NCBI, відформатована у форматі ecoPCR (докладніше див. утиліту obiconvert):

embl_r117.ndx
embl_r117.rdx
embl_r117.tdx

Покроковий аналіз¶

Відновити повне читання послідовності з прямого та зворотного часткового читанняВ¶

При використанні результату аналізу парного кінця секвенування з нібито перекриваючимся вперед та назад читанням, першим кроком є відновлення зібраної послідовності.

Зчитування прямого та зворотного фрагментів одного і того ж фрагмента знаходяться в одній позиції рядка у двох файлах fastq, отриманих після послідовності. На основі цих двох файлів збірка прямого та зворотного зчитування виконується за допомогою утиліти illuminapairedend, яка вирівнює два зчитування та повертає відновлену послідовність.

У нашому випадку команда:

Параметр --score-min дозволяє відкидати послідовності з низькою якістю вирівнювання. Якщо оцінка вирівнювання нижче 40, зчитування вперед і назад не вирівнюються, а об'єднуються, і значення атрибута режиму в заголовку послідовності встановлюється як об'єднане замість вирівнювання

Видалити незрівнянні записи послідовностей¶

Невирівняні послідовності (режим = приєднаний) використовувати не можна. Наступна команда дозволяє видалити їх із набору даних:

-P вимагає виразу python. mode! = "приєднаний" означає, що якщо значення атрибута mode відрізняється від приєднаного, буде збережено відповідний запис послідовності.

Перший запис послідовності wolf.ali.fastq можна отримати за допомогою наступного командного рядка:

І результат такий:

Присвоїти кожен запис послідовності відповідній комбінації зразка/маркера¶

Кожен запис послідовності присвоюється відповідному зразку та маркеру, використовуючи дані, надані в текстовому файлі (тут wolf_diet_ngsfilter.txt). Цей текстовий файл містить один рядок на зразок, з назвою експерименту (кілька експериментів може бути включено в один файл), назвою тегів (наприклад: aattaac, якщо однаковий тег був використаний на кожній кінці ПЛР products, або aattaac: gaagtag, якщо теги були різними), послідовність прямого праймера, послідовність зворотного праймера, літера Т або F для ідентифікації зразка, використовуючи лише прямий праймер та тег, або використовуючи обидва праймери та обидва теги, відповідно (детальніше див. ngsfilter).

Ця команда створює два файли:

unidentified.fastq, що містить усі записи послідовності, не призначені комбінації зразка/маркера
wolf.ali.assigned.fastq, що містить усі записи послідовності, належним чином призначені комбінації вибірки/маркера

Зверніть увагу, що кожен запис послідовності файлу wolf.ali.assigned.fastq містить лише послідовність штрих-кодів, оскільки послідовності праймерів та тегів видаляються програмою ngsfilter. Інформація про експеримент, зразок, праймери та теги додаються як атрибути в заголовок послідовності.

Наприклад, перший запис послідовності wolf.ali.assigned.fastq є:

Дереплікація читає в послідовності uniqq

Одну і ту ж молекулу ДНК можна секвенувати кілька разів. Для того, щоб зменшити як розмір файлу, так і час обчислень, і отримати простіші інтерпретовані результати, зручно працювати з унікальними послідовностями замість читання. Щоб видалити такі зчитування в унікальні послідовності, ми використовуємо команду obiuniq.

Визначення адаптоване за Seguritan and Rohwer (2001)

Для зняття реплікації ми використовуємо команду obiuniq із зразком -m. Параметр -m sample використовується для збереження інформації про зразки походження для кожної унікальної послідовності.

Зверніть увагу, що obiuniq повертає файл fasta.

Перший запис послідовності wolf.ali.assigned.uniq.fasta:

Запуск obiuniq додав два записи key = values у заголовок послідовності fasta:

merged_sample =: ця послідовність була знайдена один раз в одному зразку під назвою 29a_F260619
count = 1: загальна кількість для цієї послідовності дорівнює 1

Щоб зберегти лише ці два атрибути key = value, ми можемо використовувати команду obiannotate:

Першими п’ятьма записами послідовності wolf.ali.assigned.uniq.fasta стають:

Позначте набір даних послідовностіВ¶

Набір послідовностей, присвоєних відповідним зразкам, не означає, що всі послідовності мають біологічне значення, тобто деякі з цих послідовностей можуть містити ПЛР та/або помилки послідовності або химери. Щоб якомога більше видалити такі послідовності, ми спочатку відкидаємо рідкісні послідовності, а потім варіанти послідовностей, які, ймовірно, відповідають артефактам.

Отримати статистику підрахунку

У цьому випадку ми використовуємо obistat, щоб отримати статистику підрахунку за атрибутом ‘count’ (атрибут count доданий командою obiuniq). Переміщуючи результат у командах Unix sort і head, ми зберігаємо лише статистику підрахунку для 20 найнижчих значень атрибута ‘count’.

Це друкує вихідні дані:

Набір даних містить 3504 послідовності, що відбуваються лише один раз.

Зберігайте лише послідовності, що мають відлік більше або дорівнює 10 і довжину менше 80 bpВ¶

Виходячи з попереднього спостереження, ми встановили обмеження для збереження послідовностей для подальшого аналізу на відлік 10. Для цього ми використовуємо команду obigrep. Опція -p 'count> = 10' означає, що для вираження python count> = 10 для кожної послідовності, яку потрібно зберегти, значення "True" має бути рівним True. На основі попередніх знань ми також видаляємо послідовності довжиною менше 80 п.н. (опція -l), оскільки ми знаємо, що посилений штрих-код 12S-V5 для хребетних повинен мати довжину близько 100 п.н.

Перший запис послідовності wolf.ali.assigned.uniq.c10.l80.fasta:

Очищення послідовностей від ПЛР/помилок секвенування (варіанти послідовностей) ¶

Як завершальний крок зняття шуму, використовуючи програму obiclean, ми зберігаємо головні послідовності (опція -H), які є послідовностями без варіантів, кількість яких перевищує 5% від їх власного рахунку (-r 0,05 варіант).

Перший запис послідовності wolf.ali.assigned.uniq.c10.l80.clean.fasta:

Таксономічне присвоєння послідовностей¶

Після закінчення шумозаглушення наступним кроком в аналізі дієти є присвоєння штрих-кодів відповідним видам, щоб отримати повний перелік видів, асоційованих з кожною пробою.

Таксономічне присвоєння послідовностей вимагає довідкової бази даних, що складається з усіх можливих видів, щоб бути ідентифікованими у зразку. Потім призначення виконується на основі порівняння послідовностей між послідовностями зразків та еталонними послідовностями.

Створення довідкової бази даних¶

Одним із способів побудови довідкової бази даних є використання програми ecoPCR для моделювання ПЛР та вилучення всіх послідовностей з EMBL, які можуть бути ампліфіковані у кремнію двома праймерами (TTAGATACCCCACTATGC та TAGAACAGGCTCCTCTAG), що використовуються для ампліфікації ПЛР.

Тоді повний перелік кроків для побудови цієї довідкової бази даних буде таким:

Завантажте весь набір послідовностей EMBL (доступно за посиланням: ftp://ftp.ebi.ac.uk/pub/databases/embl/release/)
Завантажте таксономію NCBI (доступно за посиланням: ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz)
Відформатуйте їх у формат ecoPCR (див. Обконвертацію, як можна створювати файли, сумісні з ecoPCR)
Використовуйте ecoPCR для моделювання посилення та побудови довідкової бази даних на основі передбачувано посилених штрих-кодів разом із записаною ними таксономічною інформацією

Оскільки кроки 1 та 3 можуть бути справді трудомісткими (близько одного дня), ми вже надали довідкову базу даних, створену наступними командами, щоб ви могли пропустити її побудову. Зверніть увагу, що оскільки база даних EMBL та таксономічні дані можуть розвиватися щодня, якщо ви виконуєте наступні команди, ви можете отримати зовсім інші результати.

Можна використовувати будь-яку утиліту, яка дозволяє завантажувати файли з ftp-сайту. У наступних командах ми використовуємо загальновживану команду wget Unix.