معلومة

ما هو الفرق بين التسلسل ، والقراءة ، و contigs للمادة الوراثية؟

ما هو الفرق بين التسلسل ، والقراءة ، و contigs للمادة الوراثية؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

هل يمكن لشخص ما أن يشرح الاختلافات بين التسلسل والقراءة والكونتيجيز للمواد الجينية مثل الحمض النووي ، إذا أمكن مع مثال؟

أنا جديد في مجال المعلوماتية الحيوية ، ولم أجد أي إجابات قاطعة لكل هذه المفاهيم على الويب.


أفهم هذه الكلمات الثلاث على النحو التالي:

  • تسلسل هو اسم عام يصف ترتيب الحروف البيولوجية (DNA / RNA أو الأحماض الأمينية). كل من contigs والقراءات عبارة عن تسلسل DNA / RNA أو aa

  • يقرأ هي مجرد عقرب قصير للقراءات المتسلسلة. تشير القراءات المتسلسلة عادةً إلى معلومات رقمية إلى حد ما تم الحصول عليها من آلة التسلسل (على سبيل المثال Illumina MySeq) وتخزينها فيسريعملف مع نقاط الجودة لكل قاعدة. عادة ما تكون القراءات قصيرة. ومع ذلك "القصير" يتغير بسرعة. ينتج MySeq الآن قراءات في أي مكان يتراوح طوله بين 50-150 زوجًا أساسيًا (bp). من تشغيل واحد (سيعتمد ذلك حقًا على المدى) ، يمكنك الحصول على ملايين القراءات ، حيث سيتم تعيين حجم كل قراءة bp ، على سبيل المثال 100bp طويلة. يتم تخزين جميع القراءات في ملف واحدسريعملف لكل تكرار ، حيث تكون جميع القراءات في هذا الملف عادةً ذات حجم موحد ، على سبيل المثال ، يبلغ طول جميع عمليات القراءة الخمسة ملايين نقطة أساس.

بصفتك خبيرًا في المعلومات البيولوجية ، فإن وظيفتك الأولى هي تحديد مكان هؤلاء يقرأ يأتي من. اعتمادًا على الهدف التجريبي وعلى نوع التسلسل الذي كنت تقوم به ، على سبيل المثال DNA-seq أو RNA-seq الذي قد تواجهه أو لا تصادفه contigs.

  • contigs هي مجرد قراءات تم تجميعها معًا. على سبيل المثال إذا كنت تفعل من جديد ترانسكريبتوميكس. ثم ستفعل:

    1. تنقية نصك من منديل وإرساله للتسلسل
    2. احصل على ملفات fastq بقراءات متسلسلة ، وكلها قراءات قصيرة (على سبيل المثال 100 نقطة أساس)
    3. قم بتجميع قراءات 100 نقطة أساس في ملف أطول كونتيج التي نأمل أن تشبه نصك الفردي

سأقول نفس الشيء مثل Serine ولكن في سياق مختلف قليلاً. لنأخذ مثالاً حيث تريد مقارنة الأشخاص المدخنين بغير المدخنين.

في هذا السياق ، قد ترغب في أخذ تسلسل الحمض النووي للأشخاص المدخنين. ومع ذلك ، نظرًا لقيود التكنولوجيا ، لن تحصل على تسلسل DNA واحد من آلة التسلسل. ستحصل على الملايين من سلاسل الحمض النووي القصيرة المتداخلة المعروفة بالقراءات.

نحتاج إلى مُجمِّع "لرسم خريطة" للقراءات ومقارنتها بجينوم مرجعي. في هذا المثال ، يمكن أن يكون الجينوم المرجعي هو HG38 البشري.

سيحتاج المجمع إلى دمج القراءات المتداخلة في مجموعة من المناطق غير المتداخلة ، والمعروفة باسم contigs.


ما الفرق بين لقاح DNA و RNA؟

لورا هينسلي صحفية حائزة على جوائز في أسلوب الحياة عملت في بعض أكبر غرف التحرير في كندا.

جيمس لاسي ، MLS ، مدقق حقائق وباحث. حصل جيمس على درجة الماجستير في علوم المكتبات من جامعة الدومينيكان.

الماخذ الرئيسية

  • لقاحات الحمض النووي والحمض النووي الريبي لها نفس الهدف مثل اللقاحات التقليدية ، لكنها تعمل بشكل مختلف قليلاً.
  • بدلاً من حقن شكل ضعيف من الفيروس أو البكتيريا في الجسم كما هو الحال مع اللقاح التقليدي ، تستخدم لقاحات الحمض النووي والحمض النووي الريبي جزءًا من الشفرة الجينية للفيروس لتحفيز الاستجابة المناعية.
  • لقاح mRNA لـ COVID-19 الذي طورته شركتا Pfizer و BioNTech هو الأول من نوعه المصرح به للاستخدام في حالات الطوارئ في الولايات المتحدة.
  • هناك العديد من لقاحات COVID-19 المحتملة الأخرى للحمض النووي والحمض النووي الريبي قيد التجارب السريرية ، مما يعني أنها مجال مهم وواعد لتطوير اللقاح.

يعمل الباحثون في جميع أنحاء العالم على تطوير لقاحات آمنة وفعالة لـ COVID-19 ، المرض الناجم عن فيروس كورونا الجديد SARS-CoV-2. يوجد حاليًا العديد من التجارب السريرية العالمية للقاحات ، بما في ذلك أربع تجارب رئيسية في الولايات المتحدة. بعض هذه اللقاحات المحتملة لـ COVID-19 هي لقاحات RNA و DNA ، وهي مجال ناشئ في تطوير اللقاح.

في 11 كانون الأول (ديسمبر) ، منحت إدارة الغذاء والدواء الأمريكية تصريح استخدام طارئ للقاح الحمض النووي الريبي (mRNA) لـ COVID ‑ 19 الذي اشتركت في تطويره شركتا Pfizer و BioNTech. تمت الموافقة على هذا الاستخدام الطارئ للأشخاص الذين تبلغ أعمارهم 16 عامًا أو أكبر.


ما هي المادة الوراثية؟

المادة الوراثية هي الوسيلة التي تنتقل بواسطتها التعليمات من جيل من الكائنات الحية إلى الجيل الذي يليه. في الحياة على الأرض ، تأخذ شكل تسلسلات النيوكليوتيدات التي يتم تنظيمها في الجينوم. الجينوم هو كل الحمض النووي الموجود داخل خلية كائن حي. يحتوي كل جزيء من الحمض النووي البشري على بلايين من النيوكليوتيدات مرتبة كدرجات على سلم.

إنه تسلسل النيوكليوتيدات الذي يحدد سمات الكائن الحي. في أماكن مختلفة ، تسمى loci ، على طول كل كروموسوم بين امتدادات كبيرة من النوكليوتيدات ، تتحلل تسلسلات الحمض النووي للنيوكليوتيدات إلى أنماط متماسكة توجه بروتينات المرسال في كيفية بناء بروتينات أخرى. يتم تصنيع هذه البروتينات في سيتوبلازم الخلية وتعمل على بناء كل بنية الجسم الحي. الجينات ، كنتيجة طبيعية لتسلسل النوكليوتيدات ، تبني البروتينات ، والبروتينات تبني الأجسام.

يتم تمرير المواد الجينية بين الكائنات الحية الكبيرة عن طريق الانتقال الرأسي من الأب إلى النسل. كل ذرية تشبه والدها أكثر مما تشبه عضوًا تم اختياره عشوائيًا من نوعها لأن التسلسل الدقيق للتعليمات الجينية حول كيفية بناء الجسم قد ورث من الوالد. تُعرف الأخطاء الصغيرة في نسخ الجينات بالطفرات ، وتكاثرها في جميع أنحاء مجموعة الجينات يقود عملية التطور.


ما هو الفرق بين التسلسل ، والقراءة ، و contigs للمادة الوراثية؟ - مادة الاحياء

استدعاء المتغير أحادي الصيغة الصبغية السريع ومحاذاة الجينوم الأساسي

يجد Snippys بين الجينوم المرجعي أحادي الصيغة الصبغية ويقرأ تسلسل NGS. سيجد كلا من الاستبدالات (snps) والإدخالات / المحذوفات (indels). سيستخدم أكبر عدد ممكن من وحدات المعالجة المركزية (CPU) التي يمكنك إعطاؤها على جهاز كمبيوتر واحد (تم اختباره على 64 مركزًا). تم تصميمه مع أخذ السرعة في الاعتبار ، وينتج مجموعة متسقة من ملفات الإخراج في مجلد واحد. يمكن بعد ذلك أخذ مجموعة من نتائج Snippy باستخدام نفس المرجع وإنشاء محاذاة SNP أساسية (وفي النهاية شجرة نسالة).

قم بتثبيت Homebrew (MacOS) أو LinuxBrew (Linux) ثم:

سيؤدي هذا إلى تثبيت أحدث إصدار مباشرة من جيثب. ستحتاج إلى إضافة دليل Snippy's bin إلى $ PATH.

تأكد من حصولك على الإصدار المطلوب:

تحقق من أن جميع التبعيات مثبتة وتعمل:

  • جينوم مرجعي بتنسيق FASTA أو GENBANK (يمكن أن يكون في عدة contigs)
  • تسلسل قراءة الملف (الملفات) بتنسيق FASTQ أو FASTA (يمكن أن يكون مضغوطًا بتنسيق gz.)
  • مجلد لوضع النتائج فيه
تمديد وصف
.التبويب ملخص بسيط مفصول بعلامات جدولة لجميع المتغيرات
.csv نسخة مفصولة بفواصل من ملف .tab
.لغة البرمجة إصدار HTML من ملف .tab
.vcf المتغيرات المشروحة النهائية بتنسيق VCF
.سرير المتغيرات في تنسيق BED
.gff المتغيرات في تنسيق GFF3
.bam المحاذاة بتنسيق BAM. يتضمن قراءات غير معيّنة ومتعددة الخرائط. يستبعد التكرارات.
.bam.bai فهرس لملف .bam
.سجل ملف سجل بأوامر التشغيل ومخرجاتها
.aligned.fa نسخة من المرجع ولكن مع - في الموضع مع العمق = 0 و N للعمق 0 & lt & lt - mincov (ليس لديه متغيرات)
.consensus.fa نسخة من الجينوم المرجعي مع الكل المتغيرات إنشاء مثيل
.consensus.subs.fa نسخة من الجينوم المرجعي مع فقط الاستبدال المتغيرات إنشاء مثيل
.raw.vcf المكالمات المتغيرة غير المصفاة من Freebayes
.filt.vcf المكالمات المتغيرة التي تمت تصفيتها من Freebayes
.vcf.gz ملف .vcf مضغوط عبر BGZIP
.vcf.gz.csi فهرس .vcf.gz عبر فهرس bcftools)

⚠️ ❌ Snippy 4.x يفعل ليس إنتاج الملفات التالية التي قام بها Snippy 3.x.

تمديد وصف
.vcf.gz.tbi فهرس .vcf.gz عبر TABIX
.depth.gz إخراج عمق samtools -aa لملف .bam
.depth.gz.tbi فهرس ملف .depth.gz

الأعمدة في تنسيقات TAB / CSV / HTML

اسم وصف
كروم تم العثور على التسلسل في المتغير على سبيل المثال. الاسم بعد & GT في مرجع FASTA
نقاط البيع الموقف في التسلسل ، العد من 1
نوع نوع المتغير: snp msp ins del complex
المرجع النيوكليوتيدات في المرجع
ALT النيوكليوتيدات البديلة التي تدعمها القراءات
دليل حساب التردد لـ REF و ALT

إذا قدمت ملف Genbank كملف مرجعي بدلاً من ملف FASTA ، فسيقوم Snippy بملء هذه الأعمدة الإضافية باستخدام شرح الجينوم لإخبارك بالميزة التي تأثرت بالمتغير:

اسم وصف
FTYPE فئة الميزة المتأثرة: CDS tRNA rRNA.
ساحل ستراند كانت الميزة على: + -.
NT_POS موضع النوكليوتيدات للمتغير مع الميزة / الطول في nt
AA_POS موضع / الطول المتبقي في aa (فقط إذا كانت FTYPE هي CDS)
LOCUS_TAG / locus_tag للعنصر (إن وجدت)
جين العلامة الجينية / للموضع (إن وجدت)
المنتج / علامة المنتج للميزة (إن وجدت)
تأثير نتيجة snpEff المشروحة لهذا المتغير (علامة ANN في .vcf)

نوع اسم مثال
snp تعدد الأشكال النوكليوتيدات واحد أ = & GT T
mnp تعدد الأشكال النوكليوتيدات GC = & GT AT
الإضافية إدراج ATT = & GT AGTT
ديل حذف ACGG = & GT ACG
مركب مزيج من snp / mnp ATTC = & GTTA

يتم إجراء الاتصال البديل بواسطة Freebayes. المعلمات الرئيسية الخاضعة لسيطرة المستخدم هي:

  • --mincov - الحد الأدنى لعدد القراءات التي تغطي موقعًا ما (افتراضي = 10)
  • --minfrac - الحد الأدنى من تلك القراءات التي يجب أن تختلف عن المرجع
  • --minqual - الحد الأدنى لاستدعاء متغير VCF "quality" (افتراضي = 100)

النظر إلى المتغيرات بالتفصيل باستخدام snippy-vcf_report

إذا قمت بتشغيل Snippy باستخدام الخيار --report ، فسيتم تلقائيًا تشغيل snippy-vcf_report وإنشاء snps.report.txt الذي يحتوي على قسم مثل هذا لكل SNP في snps.vcf:

إذا كنت ترغب في إنشاء هذا التقرير بعد، بعدما قمت بتشغيل Snippy ، يمكنك تشغيله مباشرة:

إذا كنت تريد إصدار HTML للعرض في مستعرض ويب ، فاستخدم الخيار --html:

إنه يعمل عن طريق تشغيل samtools tview لكل متغير ، والذي يمكن أن يكون بطيئًا جدًا إذا كان لديك آلاف المتغيرات. يوصى باستخدام --cpus على أعلى ارتفاع ممكن.

- سيعين rgid معرف مجموعة القراءة (RG) (ID) وعينة (SM) في ملف BAM و VCF. إذا لم يتم توفيره ، فسيستخدم اسم المجلد --outdir لكل من ID و SM.

--mapqual هو الحد الأدنى من جودة التعيين التي يمكن قبولها في الاستدعاء المتغير. BWA MEM باستخدام 60 ليعني أن القراءة "تعيين فريد".

--basequal هو الحد الأدنى من الجودة التي يحتاجها النيوكليوتيد في الاتصال البديل. نستخدم 13 الذي يتوافق مع احتمال الخطأ

5٪. إنها قيمة SAMtools تقليدية.

--maxsoft هو عدد قواعد المحاذاة للسماح بقصها برفق قبل التخلص من المحاذاة. هذا لتشجيع المحاذاة العالمية على المحلية ، ويتم تمريرها إلى أداة samclip.

- يتم استخدام mincov و - minfrac لتطبيق عتبات صارمة على استدعاء المتغير بما يتجاوز القياس الإحصائي الحالي .. تعتمد القيم المثلى على عمق التسلسل ومعدل التلوث. يتم استخدام قيم 10 و 0.9 بشكل شائع.

--targets يأخذ ملف BED ويستدعي فقط المتغيرات في تلك المناطق. ليست هناك حاجة عادةً إلا إذا كنت مهتمًا فقط بالمتغيرات في مواضع معينة (على سبيل المثال ، جينات AMR) ولكنك لا تزال تؤدي WGS بدلاً من تسلسل amplicon.

--contigs يسمح لك باستدعاء SNPs من contigs بدلاً من القراءة. يقوم بتمزيق contigs إلى قراءات تركيبية ، لوضع المكالمات على قدم المساواة مع عينات القراءة الأخرى في تحليل متعدد العينات.

إذا اتصلت بـ SNPs لعزلات متعددة من نفس المرجع ، فيمكنك إنتاج محاذاة من "SNPs الأساسية" والتي يمكن استخدامها لبناء نسالة عالية الدقة (تجاهل إعادة التركيب المحتمل). "الموقع الأساسي" هو موضع جينومي موجود فيه الكل العينات. يمكن أن يحتوي الموقع الأساسي على نفس النيوكليوتيد في كل عينة ("أحادي الشكل") أو يمكن أن تكون بعض العينات مختلفة ("متعددة الأشكال" أو "متغيرة"). إذا تجاهلنا مضاعفات أنواع المتغيرات "ins" و "del" ، واستخدمنا فقط مواقع مختلفة ، فهذه هي "جوهر SNP الجينوم".

لتبسيط تشغيل مجموعة من التسلسلات المعزولة (القراءة أو contigs) مقابل المرجع نفسه ، يمكنك استخدام البرنامج النصي متعدد القطع. يتطلب هذا البرنامج النصي علامة التبويب مفصولة ملف الإدخال على النحو التالي ، ويمكنه التعامل مع القراءات ذات النهاية المزدوجة ، والقراءات أحادية النهاية ، و contigs المجمعة.

ثم يمكن للمرء تشغيل هذا لإنشاء البرنامج النصي الإخراج. يجب أن تكون المعلمة الأولى هي ملف input.tab. يجب أن تكون المعلمات المتبقية أي معلمات مقتطف مشتركة متبقية. سيتم استخدام المعرف لكل - outdir الخاص بالعزلة.

سيتم تشغيله أيضًا في النهاية لإنشاء ملفات محاذاة الجينوم الأساسي SNP. *.

تمديد وصف
.aln محاذاة SNP أساسية بتنسيق --format (افتراضي FASTA)
.full.aln محاذاة كاملة للنيوكليوتيدات SNP للجينوم (بما في ذلك المواقع الثابتة)
.التبويب قائمة عمودية مفصولة بعلامات جدولة لـ جوهر مواقع SNP مع الأليلات ولكن بدون تعليقات توضيحية
.vcf ملف VCF متعدد العينات مع علامات GT على النمط الجيني لجميع الأليلات المكتشفة
.رسالة قصيرة قائمة عمودية مفصولة بعلامات جدولة لإحصائيات المحاذاة / الحجم الأساسي
.ref.fa نسخة FASTA / نسخة من --ref
. self_mask.bed يتم إنشاء ملف BED في حالة استخدام --mask auto.

لماذا يعتبر core.full.aln شوربة أبجدية؟

الملف core.full.aln هو ملف محاذاة تسلسل متعدد تنسيق FASTA. يحتوي على تسلسل واحد للإشارة ، وواحد لكل عينة يشارك في حساب الجينوم الأساسي. كل تسلسل له نفس طول التسلسل المرجعي.

اختلاف الشخصيات المعنى
ATGC نفس المرجع
atgc يختلف عن المرجع
- تغطية صفرية في هذه العينة أو حذف متعلق بالمرجع
ن تغطية منخفضة في هذه العينة (بناءً على --mincov)
X منطقة مرجعية مقنعة (من - قناع)
ن التركيب الوراثي متغاير الزيجوت أو رديء الجودة (GT = 0/1 أو QUAL & lt - minqual in snps.raw.vcf)

يمكنك إزالة جميع الأحرف "الغريبة" واستبدالها بـ N باستخدام snippy-clean_full_aln المضمن. يكون هذا مفيدًا عندما تحتاج إلى تمريره إلى أداة بناء الأشجار أو إزالة إعادة التركيب:

  • إذا كنت تريد إخفاء مناطق معينة من الجينوم ، فيمكنك توفير ملف BED مع المعلمة --mask. سيتم استبعاد أي SNPs في تلك المناطق. هذا شائع في الجينومات مثل م حيث تسبب جينات PE / PPE / PGRS المتكررة المزعجة نتائج إيجابية خاطئة ، أو تخفي مناطق الملتهمة. أ - ملف سرير قناع م مع Snippy في المجلد etc / Mtb_NC_000962.3_mask.bed. وهو مشتق من ملف XLSX من https://gph.niid.go.jp/tgs-tb/
  • إذا كنت تستخدم الخيار snippy --cleanup ، فسيتم حذف الملفات المرجعية. هذا يعني أن المقتطف الأساسي لا يمكنه "البحث التلقائي" عن المرجع. في هذه الحالة ، يمكنك ببساطة استخدام snippy-core --reference REF لتوفير المرجع بتنسيق FASTA.

زيادة السرعة عند كثرة القراءات

في بعض الأحيان ، سيكون لديك عمق تسلسل أكبر بكثير تحتاجه لاستدعاء SNPs. مشكلة شائعة هي خلية تدفق كاملة MiSeq لعزل بكتيري واحد ، حيث ينتج عن 25 مليون قراءة عمق جينوم يصل إلى 2000x. هذا يجعل Snippy أبطأ بكثير مما يجب أن تكون عليه ، حيث سيتم استرداد معظم SNPs بعمق 50-100x. إذا كنت تعلم أن لديك 10 أضعاف كمية البيانات التي تحتاجها ، فيمكن لـ Snippy أن تقوم بأخذ عينات فرعية من بيانات FASTQ الخاصة بك بشكل عشوائي:

فقط استدعاء SNPs في مناطق معينة

إذا كنت تبحث عن تعدد أشكال تعدد الأشكال المحددة ، لنقل تلك التي أعادت AMR في جينات معينة في الجينوم المرجعي ، فيمكنك توفير الكثير من الوقت من خلال استدعاء المتغيرات هناك فقط. فقط ضع مناطق الاهتمام في ملف BED:

إيجاد تعدد الأشكال بين contigs

في بعض الأحيان ، تكون إحدى العينات متاحة فقط على هيئة contigs ، بدون قراءات FASTQ المقابلة. لا يزال بإمكانك استخدام هذه contigs مع Snippy للعثور على متغيرات مقابل مرجع. يقوم بذلك عن طريق تقطيع contigs إلى 250 زوجًا من قراءة أحادية الطرف عند 2 & amptimes - تغطية موحدة mincov.

لاستخدام هذه الميزة ، بدلاً من توفير --R1 و --R2 ، يمكنك استخدام الخيار --ctgs مع ملف contigs:

يتوافق مجلد الإخراج هذا تمامًا مع snippy-core لذا يمكنك مزج مجلدات الإخراج المتوافقة مع FASTQ لإنتاج محاذاة.

تصحيح أخطاء التجميع

ال من جديد تحاول عملية التجميع إعادة بناء القراءات في تسلسل الحمض النووي الأصلي المشتق منها. تسمى هذه التسلسلات المعاد بناؤها contigs أو سقالات. لأسباب مختلفة ، يمكن إدخال أخطاء صغيرة في contigs المجمعة والتي لا تدعمها القراءات الأصلية المستخدمة في عملية التجميع.

تتمثل الإستراتيجية الشائعة في محاذاة القراءات إلى contigs للتحقق من وجود تناقضات. تظهر هذه الأخطاء كمتغيرات (SNPs و indels). اذا قدرنا يعكس هذه المتغيرات مما يمكننا "تصحيح" contigs لتتناسب مع الأدلة المقدمة من القراءات الأصلية. من الواضح أن هذه الإستراتيجية يمكن أن تسوء إذا لم يكن المرء حريصًا بشأنها كيف يتم تنفيذ محاذاة القراءة والمتغيرات المقبولة.

Snippy قادر على المساعدة في عملية تصحيح كونتيج. في الواقع ، ينتج ملف snps.consensus.fa FASTA وهو ملف إدخال ref.fa المقدم ولكن مع المتغيرات المكتشفة في snps.vcf المطبقة!

ومع ذلك ، فإن Snippy ليست مثالية وفي بعض الأحيان تجد متغيرات مشكوك فيها. عادةً ما تقوم بعمل نسخة من snps.vcf (دعنا نسميها تصحيحًا. vcf) وتزيل تلك الأسطر المقابلة للمتغيرات التي لا نثق بها. على سبيل المثال ، عند تصحيح contigs Roche 454 و PacBio SMRT ، نتوقع في المقام الأول العثور على أخطاء homopolymer ، وبالتالي نتوقع رؤية أكثر من متغيرات نوع snp.

في هذه الحالة ، تحتاج إلى تشغيل عملية التصحيح يدويًا باستخدام الخطوات التالية:

قد ترغب في أعاد هذه العملية عن طريق استخدام التصحيح المصحح كمرجع جديد للتشغيل المتكرر لـ Snippy. في بعض الأحيان ، يسمح تصحيح خطأ واحد لـ BWA بمحاذاة الأشياء التي لم يكن بإمكانها من قبل ، ويتم الكشف عن أخطاء جديدة.

قد لا يكون Snippy هو أفضل طريقة لتصحيح التجميعات - يجب أن تفكر في أدوات مخصصة مثل PILON أو iCorn2 ، أو ضبط معلمات Quiver (لبيانات Pacbio).

في بعض الأحيان أنت مهتم بالقراءات التي فعلت ليس تتماشى مع الجينوم المرجعي. هذه القراءات تمثل الحمض النووي الذي كان جديدًا لك العينة التي يحتمل أن تكون مثيرة للاهتمام. الاستراتيجية القياسية هي من جديد قم بتجميع القراءات غير المعينة لاكتشاف عناصر الحمض النووي الجديدة هذه ، والتي غالبًا ما تشتمل على عناصر وراثية متحركة مثل البلازميدات.

بشكل افتراضي ، يفعل Snippy ليس احتفظ بالقراءات غير المعينة ، ولا حتى في ملف BAM. إذا كنت ترغب في الاحتفاظ بها ، فاستخدم الخيار --unmapped وسيتم حفظ القراءات غير المحاذاة في ملف FASTQ مضغوط:

الاسم Snippy هو مزيج من SNP (يُنطق "snip") و snappy (بمعنى "سريع") و Skippy the Bush Kangaroo (لتمثيل أصله الأسترالي)

Snippy هو برنامج مجاني ، تم إصداره بموجب GPL (الإصدار 2).

يرجى إرسال الاقتراحات وتقارير الأخطاء إلى متعقب المشكلات

  • perl & gt = 5.18
  • bioperl & gt = 1.7
  • bwa mem & gt = 0.7.12
  • minimap2 & GT = 2.0
  • samtools & GT = 1.7
  • bcftools & GT = 1.7
  • bedtools & GT = 2.0
  • جنو بالتوازي & GT = 2013xxxx
  • freebayes & gt = 1.1 (freebayes ، freebayes-موازية ، fasta_generate_regions.py)
  • vcflib & gt = 1.0 (vcfstreamsort، vcfuniq، vcffirstheader) & gt = 0.5
  • snpEff & gt = 4.3
  • samclip & GT = 0.2
  • seqtk & GT = 1.2
  • مواقع snp & gt = 2.0
  • any2fasta & gt = 0.4
  • wgsim & gt = 1.8 (للاختبار فقط - أمر wgsim)

بالنسبة إلى Linux (تم تجميعه على Ubuntu 16.04 LTS) و macOS (تم تجميعه على High Sierra Brew) ، يتم تضمين بعض الثنائيات وجداول JAR والنصوص.


مناقشة

لقد أنشأنا أول جينوم لأنواع ثنائية المسكن داخل الجنس Solanum، لتقييم الظهور المبكر والتوقيعات الجينومية للتمايز بين الجنسين وتحديد الجنس. للقيام بذلك ، قمنا بتجميع جينوم عالي الجودة ، وأخذنا كنهج -mer للعثور على المناطق الجينومية المرتبطة بالجنس ، ونفذت تجربة RNA-seq للأنسجة الزهرية للعثور على الجينات المشاركة في تحديد الجنس وازدواج الشكل الجنسي. وجدنا أن ثنائي المسكن S. الزائدة الدودية يبدو أن لديها منطقة تحديد جنس متطورة مؤخرًا وأن الذكور من المرجح أن يكونوا من الجنس غير المتجانسة. في الواقع ، أنماط الاختلاف في التسلسل بين الذكور والإناث التي لاحظناها لا تشير إلى وجود منطقة كبيرة غير مؤلفة تحتوي على جينات تشارك في تحديد الجنس. علاوة على ذلك ، تشير المواقع المحددة المرتبطة بالتمايز بين الجنسين إلى أن تطور ثنائي الجنس في هذا النظام تضمن تغييرات في تنظيم تخليق البكتين وتدهوره ، بما في ذلك التحولات المظهرية المحددة التي لوحظت في الأزهار الأنثوية وظيفية. يمثل هذا الجينوم ، والجينات المرشحة المرتبطة به ، موردًا جينوميًا قيمًا للاستقصاء المستمر في التحولات الأخيرة إلى ثنائي الأسنان داخل Solanum.

التعبير الجيني المحدود المتحيز للجنس وعدد قليل من المناطق المرتبطة بالجنس متوافقة مع التطور الأخير لمضاعفة الشكل الجنسي

لقد وجدنا قدرًا متواضعًا جدًا من التعبير الجيني المتحيز للجنس في براعم الزهور ، واختلافات جنسية أكبر ولكنها لا تزال محددة في ملامح تعبير الزهور الناضجة. بالنظر إلى أنه من المتوقع أن تتراكم الخصوصية الجنسية للتعبير الجيني مع مرور الوقت منذ أصل إزدواج الشكل الجنسي (Ellegren and Parsch 2007) ، فإن ملاحظة أن القليل من الجينات تظهر تعبيرًا متحيزًا للجنس يتوافق مع نظام تحديد جنس الشباب. يتوافق هذا الاختلاف الجينومي والنسخي المتواضع للغاية بين الجنسين مع التمايز المورفولوجي الدقيق بين أزهار الذكور والإناث ، وهو من أقلها وضوحًا في الباذنجانيات ثنائية المسكن (Anderson et al. 2015).

بالنسبة للزهور الناضجة ، فإن الجينات المتحيزة للجنس أكثر شيوعًا لها تعبير أعلى في الإناث منها عند الذكور (شكل 2 ب). يتناقض هذا الاكتشاف مع نوع آخر مع منطقة محددة للجنس تطورت مؤخرًا - حديقة الهليون (Harkess et al. 2015) - على الأرجح بسبب الاختلافات التنموية في التعبير الجنسي بين النظامين. في الهليون ، يتم إيقاف تطور العضو الذكري قبل الانقسام الاختزالي الدقيق في الأزهار الأنثوية (Caporali et al. 1994) ، وبالتالي من المتوقع أن يتم التعبير عن الجينات المرتبطة بتطور حبوب اللقاح اللاحقة في الذكور فقط (Harkess et al. 2015). في المقابل ، في S. الزائدة الدودية تتطور الأزهار الأنثوية لحبوب اللقاح الناضجة ، لكنها تفشل في ترسيب مادة بريميكسين في مناطق الفتحة (Zavada and Anderson 1997). ملاحظتنا لمزيد من الجينات المنحازة للإناث في S. الزائدة الدودية لذلك يتوافق مع هذه المحافظة على كل من الأنماط الوظيفية (الأجزاء التناسلية الأنثوية) والإنتاج النشط لحبوب اللقاح (غير المشبع) (ليفين وأندرسون 1986) في الأزهار الأنثوية ، ويبدو أنه يشير إلى بعض فقدان وظيفة الأعضاء التناسلية الأنثوية في النباتات الذكرية. ومع ذلك ، فإن هذا الفقد المحتمل للوظيفة لا ينعكس في مورفولوجيا أزهار الذكور ، التي تحتوي على أجزاء تناسلية أنثوية كاملة (وإن كان ذلك مع أنماط أقصر بكثير Anderson 1979 Anderson and Levine 1982).

تنظيم البكتين كآلية محتملة لتكوين لقاح Aperturate

إن تحديد الجينات المرشحة التي تلعب تأثيرات التأنيث أو الذكورة المحتملة أمر مهم لفهم تحديد الجنس في هذا النوع ثنائي المسكن الذي تطور مؤخرًا. بشكل جماعي ، ثلاث طرق مختلفة في هذه الدراسة - ديناميات الأسرة الجينية ، والتعبير المتحيز للجنس ، والجنس المحدد ك-mers- اكتشف مجموعة من المواقع المميزة لـ S. الزائدة الدودية. من المحتمل أن تكون بعض هذه الأنواع غير مرتبطة بانتقال هذا النوع إلى ثنائي الأسرة ، وربما يرتبط البعض الآخر بالنتائج الفسيولوجية العامة لانتقال نظام التكاثر هذا بدلاً من المشاركة المباشرة في التمايز بين الجنسين وتحديد الجنس في حد ذاته. على سبيل المثال ، كشف تحليل عائلة الجينات لدينا عن تقلص عائلة بروتين عدم التوافق الذاتي S1 على وجه التحديد S. الزائدة الدودية. نظرًا لأن تطور ثنائي الأسرة يقلل بشكل كبير من إمكانية الإخصاب الذاتي ، فقد يُتوقع أن يؤدي هذا الانتقال إلى إرخاء الاختيار للحفاظ على جينات عدم التوافق الذاتي الوظيفية ، كما لوحظت خسائر مماثلة لبروتينات عدم التوافق الذاتي في الأنواع الباذنجانية الأخرى التي خضعت لتحولات نظام التكاثر (على سبيل المثال ، للتوافق الذاتي Wu et al. 2019). ومع ذلك ، من بين التغييرات الجينية التي تم اكتشافها ، من اللافت للنظر أن جميع مناهجنا الثلاثة المختلفة اكتشفت الجينات المرتبطة بالبكتين بالاقتران مع التمايز الجنسي في S. الزائدة الدودية، بما في ذلك البكتين أسيتيل إستيراز (PAE) ، والبروتينات الشبيهة بالبكتين (PLL) ، ومثبطات ميثيل إستيراز البكتين (PMEI). اكتشافنا مثير للاهتمام بشكل خاص حيث من المعروف أن تخليق البكتين وتنظيمه يلعب أدوارًا مهمة في تطوير جدار حبوب اللقاح ، وفي وظيفة حبوب اللقاح على نطاق أوسع. يتكون البكتين من homogalacturonan (HG) ، والتي يمكن أن تكون methyl- و acetyl-esterified (Wu et al. 2018) ، والسكريات البكتين هي مكونات أساسية لجدار حبوب اللقاح. غالبًا ما تُظهر المسوخات في الجينات التي تشفر البكتين الإنزيمات الاصطناعية والتحلل للبكتين - بما في ذلك البكتين ميثيل إستيراز (PME) ، و polygalatcturonase (PG) ، و PAE ، و PLL - تركيبات معيبة لجدار حبوب اللقاح (شي وآخرون 2015 Wu et al. 2018). اللافت للنظر ، في نيكوتيانا (Solanaceae) ، طفرات معدلة وراثيًا لجين واحد من جين أسيتيل استيراز البكتين ، PAE1، تظهر فقدان مسام الإنبات على سطح حبوب اللقاح (Gou et al. 2012) - نمط ظاهري مشابه جدًا لحبوب اللقاح غير الناعم الذي لوحظ في أزهار الإناث في S. الزائدة الدودية. الإفراط في التعبير PAE1 ينتج عن التبغ المعدّل وراثيًا عقمًا حادًا للذكور من خلال التأثير على إنبات حبوب اللقاح ونمو أنابيب حبوب اللقاح (Gou et al. 2012).

البروتينات الأخرى المرتبطة بالبكتين متورطة أيضًا في العديد من الأدوار الوظيفية في إنبات أنبوب حبوب اللقاح ونموه ، بما في ذلك عن طريق التنظيم المنسق بين PMEs ومثبطاتها - PMEIs (Mollet et al. 2013). على سبيل المثال ، يعتبر PME مهمًا لتوليد HG أسترة الميثيل في المنطقة القمية لأنابيب حبوب اللقاح المتنامية ، والتي توفر مرونة كافية للحفاظ على النمو (Cheung and Wu 2008). قد تسمح إزالة مجموعات إستر الميثيل بواسطة PME للأنزيمات المهينة للبكتين ، مثل PLL أو PG ، بشق العمود الفقري HG ، مما قد يؤثر على صلابة جدار الخلية (Gaffe et al. 1994 Micheli 2001). تم اقتراح أن خلية حبوب اللقاح قد تحافظ على مستوى منظم عن كثب من نشاط PME ، من خلال التنظيم بواسطة PMEIs ، من أجل الحفاظ على التوازن بين القوة واللدونة في جدار الخلية القمي (Bosch and Hepler 2005 ، 2006). على سبيل المثال ، إسكات ملف PME1 الجين في التبغ (Bosch and Hepler 2006) ، وقمع PMEI At1g10770 في أرابيدوبسيس (Zhang et al. 2010) ، كلاهما يؤدي إلى تباطؤ نمو أنبوب حبوب اللقاح.

بالإضافة إلى الكشف عن التعبير الخاص بالجنس عن PAE ، وجدنا أيضًا ثلاثة PMEIs في منطقة مرشحة لتحديد الجنس (scf14997) في S. الزائدة الدودية. يتوافق الترتيب والعلاقة بين هذه الجينات المفترضة المحددة للجنس مع كونها تكرارات حديثة ، على غرار ما تم العثور عليه في نباتات ثنائية المسكن (Harkess et al. 2017 Akagi et al. 2018). على الرغم من عدم معرفة الوظيفة المحددة لهذه الجينات بعد ، فإن الأدوار العامة لـ PMEIs و PAE والبروتينات الأخرى ذات الصلة في تكوين حبوب اللقاح ووظيفتها تشير إلى بعض النماذج المحتملة لظهور وظائف حبوب اللقاح الخاصة بالجنس في كلا الجنسين. S. الزائدة الدودية. على سبيل المثال ، من الممكن أن تؤثر نسخ PMEI هذه على أنماط التعبير التفاضلية (الخاصة بالجنس) للجينات المرتبطة بالبكتين في الزهور الناضجة ، بما في ذلك PAE ، وبالتالي تثبيط أو بدء تأثير التأنيث (أي حبوب اللقاح غير الرقيقة) التي لوحظت في الأزهار الأنثوية . يمكن أن تتضمن هذه العملية أيضًا جينات أخرى مرتبطة ارتباطًا وثيقًا: تحتوي نفس الكتلة التخليقية على تشفير جيني لـ a رفع الكرة بروتين المجال (ساب 25115)، ال أرابيدوبسيس تقويم العظام منها (AT1G06280) يتم التعبير عنها بشكل خاص خلال تطوير التابيتوم والميكروسوبور في الأنثرات (أوه وآخرون 2010 تشو وآخرون 2010). الجينات الأخرى المعبر عنها تفاضليًا لها أيضًا وظائف ذات صلة بشكل واضح. على سبيل المثال ، المكون الفرعي بيروفات ديهيدروجينيز E1 ألفا (ساب 29734) بشكل تفاضلي بين الذكور والإناث في زهرة البيروفات ديهيدروجينيز الناضجة التي تحفز الخطوات المبكرة للتخليق الحيوي للسبوروبولين ، وهو مكون رئيسي للطبقة الخارجية لحبوب اللقاح (جيانغ وآخرون 2013).

على الرغم من أن الجينات المرتبطة بالبكتين هي مرشحة واعدة لخطوة تعقيم الذكور المتوقعة في تطور ثنائي الجنس ، فمن الممكن أن تكون في نهاية المطاف منظم رئيسي لتحديد الجنس. على سبيل المثال ، عامل نسخ يشبه MYB مشابه للعامل الموجود في scf15476 (gene ساب 39069) قد تورط في تحديد الجنس في الهليون المخزني (Murase et al. 2017) ، وتسبب الضربة القاضية لتقويم العظام المفترض في عقم الذكور في نبات الأرابيدوبسيس thaliana (Zhu et al.2008). على الرغم من أن ساب 39069 يمكن أن يكون عامل النسخ منظمًا للجنس ، وقد ثبت أن العائلة الفائقة R2R3 MYB لديها تنوع شديد في الوظائف التنظيمية (Yanhui et al.2006) وليس لدينا حتى الآن بيانات كافية لاستنتاج دور هذا الجين في S. الزائدة الدودية. لذلك ، ما إذا كانت بعض التغييرات الجينية في المنبع تؤدي إلى حدوث تغييرات في مجرى النهر في الجينات المرتبطة بالبكتين ، فيجب معالجتها في الدراسات المستقبلية. على سبيل المثال ، يمكن أن يوضح تحليل النسخ لمراحل التطور الإضافية للزهور الذكرية والأنثوية كيف يتغير تنظيم البكتين عبر تطور الزهرة والتوقيت المحدد لاختلافات التعبير المتباينة بين أزهار الذكور والإناث. بغض النظر ، من خلال البحث على مستوى الجينوم عن التسلسلات الخاصة بالجنس ، بالاقتران مع تحليلات التعبير الجيني ، تمكنا من اكتشاف كل من المناطق المفترضة التي تحدد الجنس والجينات التي قد تساهم في واحدة على الأقل من الخطوتين المتوقعتين في المسار من الخنوثة إلى dioecy. توفر هذه المواقع مرشحين واضحين للتحليل الوظيفي المباشر في هذا النظام ، خاصةً للأنماط الظاهرية لتطور حبوب اللقاح غير الرطبة في الأزهار الأنثوية.

ال S. الزائدة الدودية يوفر الجينوم أساسًا لمعالجة التحولات المتكررة إلى Dioecy

على الرغم من أن جنس معين Solanum يحتوي على أقل من 20 نوعًا ثنائي المسكن موثقًا ، ويُقدر أن الثنائي قد نشأ بشكل مستقل 4 مرات على الأقل (Anderson et al. 2015). يبدو أن العديد من هذه التحولات تنطوي على سمات نمطية شائعة ، وأبرزها تطوير حبوب اللقاح غير الرطبة في الأفراد الإناث والتقليل الدراماتيكي للمدقة في أزهار الذكور (أندرسون وآخرون ، 2015). على هذا النحو ، فإن هذا الجنس الشاب (المقدّر بـ 17 My old Särkinen et al. 2013) يقدم نظامًا واعدًا لمعالجة السمات الجينومية والآليات الجينية للتحولات المتكررة والحديثة إلى dioecy.

Solanum appendiculatum هي من بين أحدث أنواع كاسيات البذور ثنائية الجنس التي تم تطويرها مؤخرًا مع جينومات متسلسلة (& lt4 My Echeverría-Londoño et al. 2020). توفر الموارد التي تم إنشاؤها هنا إطارًا قيمًا لفحص التحولات الإضافية للثنائيات في الجنس عالي التحديد ، بما في ذلك الجينوم المجمع عالي الجودة ، وتوصيف النسخ للتعليقات التوضيحية وتحليلات التعبير الجيني ، ومجموعة من المواقع المرشحة للاستكشاف الموجه في الأنظمة المتوازية. نظرًا لأن معظم أنواع الباذنجان ثنائية المسكن لها سمات جنسية متشابهة ، بما في ذلك حبوب اللقاح غير الناضجة في أسدية الأزهار الأنثوية (أندرسون وآخرون. والمستويات التنموية. بالتعاون مع S. الزائدة الدودية الجينوم ، تسلسل البيانات من ثنائي المسكنات الأخرى Solanum يمكن استخدام الأنواع لتشريح هذه الأصول الموازية لتحديد الجنس في Solanum، بما في ذلك ما إذا كانت هذه تظهر سمات جينومية متشابهة (من حيث عدد وحجم وتوزيع مناطق تحديد الجنس الناشئة) ، وتعتمد على نفس أنواع التغييرات الجينية / الجينية (أي مشاركة المناطق المتعامدة المرتبطة بالجنس) ، و / أو تتضمن نفس المسارات المحددة والمواقع الفردية ، بما في ذلك ما إذا كان هناك دور عام للمواقع المرتبطة بالبكتين في الظهور المبكر للتمايز الجنسي. في هذا السياق ، دراسة التحكم الجيني للتعبير الجنسي في أنواع مثل S.. تعدد الزوجات و S. conocarpum—both of which bear anthers on female flowers, but that anthers are largely devoid of any pollen ( Anderson et al. 2015)—could prove especially informative. Data from multiple recent, parallel systems will also be critical for testing the general predictions of theoretical models of the evolution of dioecy and assessing whether the complexity of genomic transitions that underpinning real empirical transitions matches well with these theoretical expectations.


Genomics & Systems Biology

David P. Clark , Nanette J. Pazdernik , in Molecular Biology (Second Edition) , 2013

2 Assembling Small Genomes by Shotgun Sequencing

As described in Chapter 8 , individual dideoxy sequencing reactions give lengths of sequence that are several hundred base pairs long. A whole genome must be assembled from vast numbers of such short sequences. There are three approaches to whole genome assembly: shotgun sequencing , cloned contig sequencing, and the directed shotgun approach, which is really a mixture of the first two.

في shotgun sequencing the genome is broken randomly into short fragments (1 to 2 kbp long) suitable for sequencing. The fragments are ligated into a suitable vector and then partially sequenced. Around 400–500 bp of sequence can be generated from each fragment in a single sequencing run. In some cases, both ends of a fragment are sequenced. Computerized searching for overlaps between individual sequences then assembles the complete sequence. Overlapping sequences are assembled to generate contigs ( Fig. 9.04 ). The term contig refers to a known DNA sequence that is contiguous and lacks gaps.

Figure 9.04 . Shotgun Sequencing

The first step in shotgun sequencing an entire genome is to digest the genome into a large number of small fragments suitable for sequencing. All the small fragments are then cloned and sequenced. Computers analyze the sequence data for overlapping regions and assemble the sequences into several large contigs. Since some regions of the genome are unstable when cloned, some gaps may remain even after this procedure is repeated several times.

Sequencing very large numbers of small fragments provides enough information to assemble a complete genome sequence—if your computer is powerful enough.

Since fragments are cloned at random, duplicates will quite often be sequenced. To get full coverage the total amount of sequence obtained must therefore be several times that of the genome to allow for duplications. For example, 99.8% coverage requires a total amount of sequence that is 6- to 8-fold the genome size. In principle, all that is required to assemble a genome, however large, from small sequences is a sufficiently powerful computer. No genetic map or prior information is needed about the organism whose genome is to be sequenced. The original limitation to shotgun sequencing was the massive data handling that is required. The development of faster computers overcame this problem.

The first bacterial genome to be sequenced was انفلونزا المستدمية. The sequence was deduced from just under 25,000 sequences averaging 480 bp each. This gave a total of almost 12 million bp of sequence—six times the genome size. Computerized assembly using overlaps resulted in 140 regions of contiguous sequence—that is, 140 contigs.

البكتيريا المستدمية had the honor of being the first organism to be totally sequenced.

The gaps between the contigs may be closed by more individualistic procedures. The easiest method is to re-screen the original set of clones with pairs of probes corresponding to sequences on the two sides of each gap. Clones that hybridize to both members of such a pair of probes presumably carry DNA that bridges the gap between two contigs. Such clones are then sequenced in full to close the gaps between contigs. However, many of the gaps between contigs are due to regions of DNA that are unstable when cloned, especially in a multicopy vector. Therefore, a second library in a different vector, often a single copy vector such as a lambda phage, is often used during the later stages of shotgun cloning. Pairs of end-of-contig probes are used to screen the new library for clones that hybridize to both probes and carry DNA that bridges the gap between the two contigs ( Fig. 9.05A ). A third approach, which avoids cloning altogether, is to run PCR reactions on whole genomic DNA using random pairs of PCR primers corresponding to contig ends. A PCR product will result only if the two contig ends are within a few kb of each other ( Fig. 9.05B ).

Figure 9.05 . Closing Gaps between Contigs

To identify gaps between contigs, probes or primers are made that correspond to the ends of the contigs (pink). In (A) a new library of clones (green) is screened with end-of-contig probes. Clones that hybridize to probes from two sides of a gap are isolated. In this example, a probe for the end of contig #3 (3b) and the beginning of contig #4 (4a) hybridize to the fragment shown. Therefore, the sequence of this clone should close the gap between contig #3 and #4. (B) The second approach uses PCR primers that correspond to the ends of contigs to amplify genomic DNA. If the primer pair is within a few kilobases of each other, a PCR product is made and can be sequenced.


أساليب

كريبتوسبوريديوم specimens

Four C. hominis specimens were used in whole genome sequencing in the study: specimens 30974 and 37999 of the IbA10G2 subtype and 30976 and 33537 of the IaA28R4 subtype. Specimen 30974 was collected from a patient from a cryptosporidiosis outbreak in July 2010 in Columbia, South Carolina associated with a splash pad that had problems with filtration and chlorination. Testing of filter backflush and stools from six patients all identified the presence of the C. hominis IbA10G2 subtype. Specimen 30976 was collected from a patient in a cryptosporidiosis outbreak in July 2010 in the St. Louis area in Illinois and Missouri associated with swimming pools and a water park. Testing of nine patient specimens identified the occurrence of C. hominis IaA28R4 in seven patients, IaA24R4 in one patient, and IdA15G1 in another patient. Specimen 33537 was collected from a patient from a cryptosporidiosis outbreak in July 2011 in Walsenburg, Colorado associated with a waterpark that had problems with the chlorinator. Testing of filter backflush and stools from five patients identified IaA28R4 in all. Specimen 37999 was collected from a sporadic cryptosporidiosis patient in Twin Falls, Idaho in September 2012. All stool specimens were collected fresh from symptomatic patients and stored in 2.5% potassium dichromate at 4°C prior to being used in كريبتوسبوريديوم oocyst isolation for whole genome sequencing within 6 months. كريبتوسبوريديوم species and subtypes were determined by PCR-RFLP analysis of the small subunit rRNA and sequence analysis of the 60 kDa glycoprotein (gp60) genes, respectively [17].

Oocyst isolation and whole genome amplification

كريبتوسبوريديوم oocysts were isolated from stool specimens by discontinuous sucrose and cesium chloride gradients as previously described [52]. They were further purified by immunomagnetic separation using the Dynabeads Anti-كريبتوسبوريديوم kit (Invitrogen, Carlsbad, CA). After treating the purified oocysts with 10% commercial bleach on ice for 10 min and five cycles of freezing and thawing, DNA was extracted from them by using the Qiagen DNeasy Blood & Tissue Kit (Qiagen, Valencia, CA). Whole genome amplification (WGA) of the 25–100 ng of extracted DNA was conducted by using the REPLI-g Midi Kit (Qiagen). The quality of the WGA products was verified by sequencing BamHI-digested WGA products cloned into a pUC19 vector (Fermantas, Pittsburgh, PA). The sequencing was done by using the ABI BigDye Terminator v3.1 Cycle Sequencing Kit on an ABI3130 Genetic Analyzer (Applied Biosystems, Foster City, CA).

454 and Illumina sequencing and من جديد contig assembly

The WGA products from specimens 30974 and 33537 were sequenced with 454 technology on a GS-FLX Titanium System (Roche, Branford, CT) by using approximately 1 μg of DNA for library construction and following standard Roche library protocols, with an average insert size of 600 bp. One full PTP plate was used in the analysis of each specimen. The sequence reads from each run were assembled using Newbler in the GS De Novo Assembler (http://www.454.com/products/analysis-software/) with the default settings.

The WGA products from specimens 30976 and 37999 were used to generate Illumina TruSeq (v3) libraries (average insert size: 350 bp) and sequenced 100×100 bp paired-end on an Illumina Genome Analyzer IIx (Illumina, San Diego, CA). The sequence reads with a minimum quality of 20 were trimmed by using CLC Assembly Cell 4.1.0 (http://www.clcbio.com/products/clc-assembly-cell/). The data were then assembled with default parameters and a minimum contig length of 500 bp, with scaffolding using paired-end data.

Comparative genomic analyses

For comparisons of sequences at the genome level, contigs of each specimen were aligned with reference sequences of the near complete genome of the جيم بارفوم IOWA isolate (version AAEE00000000.1) and the 1,422 contigs of the C. hominis TU5205 isolate (version NZ_AAEL00000000.1) using Nucmer, a tool in MUMmer 3.23 (http://mummer.sourceforge.net/) [53]. Multiple genome alignments were also constructed by using the progressive alginment algorithm of the Mauve 2.3.1 (http://asap.genetics.wisc.edu/software/mauve/) with default options [54]. In-house perl scripts were developed to calculate the average nucleotide identities. For the detection of SNPs, Fastqc 0.10.0 (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) was used for the QC analysis of Illumina sequence reads, and PRINSEQ 0.20.3 (http://prinseq.sourceforge.net/) [55] was used to remove low quality reads, with a min_qual_mean setting of 20 and min_len of 65. Reads were then aligned to reference sequences by using Bowtie 0.12.7 (http://bowtie-bio.sourceforge.net/index.shtml) [56]. The resulting SAM files were processed, sorted and duplicates were removed by using Picard 1.126 (http://broadinstitute.github.io/picard/). The mpileup in SAMtools (http://samtools.sourceforge.net/) was finally used to create the pileup file for SNP variant calls using the mpileup2snp in VarScan 2.3.7 (http://varscan.sourceforge.net/) [57]. Default parameters for VarScan were used except that min-avg-qual was set to 30.

PCR verification

As the comparative genomic analysis had identified some nucleotide sequences (AAEL01000413, AAEL01000728, and AAEL01000717) in the published C. hominis that had not been seen in the published جيم بارفوم genome, primers were designed based on these sequences to verify the source of these sequences by PCR (Additional file 6: Table S1). Five specimens each of جيم بارفوم و C. hominis were used in PCR analysis of each target. In addition, two C. andersoni specimens were used in confirmation of كريبتوسبوريديوم-origin of contig AAEL01000728. Each specimen was analyzed in duplicate nested PCR using 50 μl PCR mixture consisting of 1 μl (

100 ng) of extracted DNA or 2 μL of primary PCR products (in secondary PCR), 200 μM deoxynucleoside triphosphate, 1× PCR buffer (Applied Biosystems), 3.0 mM MgCl2, 5.0 U of Taq polymerase (Promega, Madison, WI), 100 nM primers, and 400 ng/μl of non-acetylated bovine serum albumin (Sigma-Adrich, St. Louis, MO). The primary and secondary PCR reactions were performed in a GeneAmp PCR 9700 thermocycler (Applied Biosystems) for 35 cycles of 94°C for 45 s, 55°C for 45 s, and 72°C for 60 s, with an initial denaturation (94°C for 5 min) and a final extension (72°C for 7 min). The secondary PCR products were sequenced in both directions using Sanger technology described above. Nucleotide sequences obtained were aligned with reference sequences downloaded from GenBank by using ClustalX (http://www.clustal.org/).

NCBI BioProject No.

Nucleotide sequences generated from the project, including all SRA data and assembled contigs, were submitted to the NCBI BioProject under the accession number PRJNA252787.

بيان الأخلاق

The study was done on delinked residual diagnostic specimens. It was covered by Human Subjects Protocol No. 990115 “Use of residual human specimens for the determination of frequency of genotypes or sub-types of pathogenic parasites”, which was reviewed and approved by the Institutional Review Board of the Centers for Disease Control and Prevention (CDC). No personal identifiers were associated with the specimens at the time of submission for diagnostic service at CDC.


شكر وتقدير

The authors thank Otto van Poeselaere, Sabine Van Leirberghe and Lucas N. Davey for stimulating discussions during the preparation of this manuscript. We acknowledge access to the Syngenta موسى 3'EST database, donated by Syngenta to Bioversity International within the framework of the Global موسى Genomics Consortium. We thank Bioversity International, Dr. Gerard Ngoh-Newilah of CARBAP, Djombe, Cameroon, Dr. Angela Kepler of Pacific-Wide Ecological Consulting, Hawaii, and the late Dr. Lois Engelberger of Pohnpei for providing samples of fruit. We thank the Ministry of Higher Education, Malaysia, for University of Malaya grants RG006-09BIO, PV109/2011A and FRGS grant FP005-2011A to JAH, GR and NZK. We would like to thank Wendy Chin Yi Wen from Plant Biotechnology Research Laboratory, University of Malaya for providing the embryogenic cell suspension. Finally the authors would like to thank Mathieu Rouard from Bioversity International, Montpellier for constructing the website to host the data generated here.


Electronic supplementary material is available online at https://doi.org/10.6084/m9.figshare.c.4853220.

تم النشر بواسطة الجمعية الملكية بموجب شروط رخصة المشاع الإبداعي http://creativecommons.org/licenses/by/4.0/ ، والتي تسمح بالاستخدام غير المقيد ، بشرط ذكر المؤلف الأصلي والمصدر.

مراجع

2016 Challenges in microbial ecology: building predictive understanding of community function and dynamics . ISME J. 10, 2557-2568. (doi:10.1038/ismej.2016.45) Crossref, PubMed, ISI, Google Scholar

Knight R, Callewaert C, Marotz C, Hyde ER, Debelius JW, McDonald D, Sogin ML

. 2017 The microbiome and human biology . Annu. Rev. Genomics Hum. جينيه. 18, 65-86. (doi:10.1146/annurev-genom-083115-022438) Crossref, PubMed, ISI, Google Scholar

Gilbert JA, Blaser MJ, Caporaso JG, Jansson JK, Lynch SV, Knight R

. 2018 Current understanding of the human microbiome . نات. ميد. 24, 392-400. (doi:10.1038/nm.4517) Crossref, PubMed, ISI, Google Scholar

2004 Community structure and metabolism through reconstruction of microbial genomes from the environment . طبيعة سجية 428, 37-43. (doi:10.1038/nature02340) Crossref, PubMed, ISI, Google Scholar

. 2008 Colloquium paper: resistance, resilience, and redundancy in microbial communities . بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 105(Suppl. 1), 11 512-11 519. (doi:10.1073/pnas.0801925105). كروسريف ، آي إس آي ، الباحث العلمي من جوجل

Fuhrman JA, Cram JA, Needham DM

. 2015 Marine microbial community dynamics and their ecological interpretation . نات. القس ميكروبيول. 13, 133-146. (doi:10.1038/nrmicro3417) Crossref, PubMed, ISI, Google Scholar

2016 Thousands of microbial genomes shed light on interconnected biogeochemical processes in an aquifer system . نات. كومون. 7, 13219. (doi:10.1038/ncomms13219) Crossref, PubMed, ISI, Google Scholar

Bardgett RD, Freeman C, Ostle NJ

. 2008 Microbial contributions to climate change through carbon cycle feedbacks . ISME J. 2, 805-814. (doi:10.1038/ismej.2008.58) Crossref, PubMed, ISI, Google Scholar

2004 Environmental genome shotgun sequencing of the Sargasso Sea . علم 304, 66-74. (doi:10.1126/science.1093857) Crossref, PubMed, ISI, Google Scholar

Quince C, Walker AW, Simpson JT, Loman NJ, Segata N

. 2017 Shotgun metagenomics, from sampling to analysis . نات. التكنولوجيا الحيوية. 35, 833-844. (doi:10.1038/nbt.3935) Crossref, PubMed, ISI, Google Scholar

Koskella B, Hall LJ, Metcalf CJE

. 2017 The microbiome beyond the horizon of ecological and evolutionary theory . نات. ايكول. Evol. 1, 1606-1615. (doi:10.1038/s41559-017-0340-2) Crossref, PubMed, ISI, Google Scholar

Hansen SK, Rainey PB, Haagensen JA, Molin S

. 2007 Evolution of species interactions in a biofilm community . طبيعة سجية 445, 533-536. (doi:10.1038/nature05514) Crossref, PubMed, ISI, Google Scholar

Lawrence D, Fiegna F, Behrends V, Bundy JG, Phillimore AB, Bell T, Barraclough TG

. 2012 Species interactions alter evolutionary responses to a novel environment . بلوس بيول. 10, e1001330. (doi:10.1371/journal.pbio.1001330) Crossref, PubMed, ISI, Google Scholar

. 2018 It takes a village: microbial communities thrive through interactions and metabolic handoffs . mSystems 3, e00152-17. (doi:10.1128/mSystems.00152-17) Crossref, PubMed, ISI, Google Scholar

Robinson CD, Klein HS, Murphy KD, Parthasarathy R, Guillemin K, Bohannan BJM

. 2018 Experimental bacterial adaptation to the zebrafish gut reveals a primary role for immigration . بلوس بيول. 16, e2006893. (doi:10.1371/journal.pbio.2006893) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Baudry L, Cournac A, Koszul R

. 2017 Scaffolding bacterial genomes and probing host-virus interactions in gut microbiome by proximity ligation (chromosome capture) assay . علوم. حال. 3, e1602105. (doi:10.1126/sciadv.1602105) Crossref, PubMed, ISI, Google Scholar

Truong DT, Tett A, Pasolli E, Huttenhower C, Segata N

. 2017 Microbial strain-level population structure and genetic diversity from metagenomes . الدقة الجينوم. 27, 626-638. (doi:10.1101/gr.216242.116) Crossref, PubMed, ISI, Google Scholar

Garud NR, Good BH, Hallatschek O, Pollard KS

. 2019 Evolutionary dynamics of bacteria in the gut microbiome within and across hosts . بلوس بيول. 17, e3000102. (doi:10.1371/journal.pbio.3000102) Crossref, PubMed, Google Scholar

. 2019 Tracking microbial evolution in the human gut using Hi-C . نات. ميكروبيول. 5, 343-353. (doi:10.1038/s41564-019-0625-0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish genes, the phenotype paradigm and genome evolution . طبيعة سجية 284, 601-603. (doi:10.1038/284601a0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish DNA: the ultimate parasite . طبيعة سجية 284, 604-607. (doi:10.1038/284604a0) Crossref, PubMed, ISI, Google Scholar

Bergstrom CT, Lipsitch M, Levin BR

. 2000 Natural selection, infectious transfer and the existence conditions for bacterial plasmids . علم الوراثة 155, 1505-1519. PubMed, ISI, Google Scholar

. 2006 Genes in conflict: the biology of selfish genetic elements . Harvard, MA : Belknap Press . كروسريف ، الباحث العلمي من Google

. 2003 Evolution experiments with microorganisms: the dynamics and genetic bases of adaptation . نات. القس جينيه. 4, 457-469. (doi:10.1038/nrg1088) Crossref, PubMed, ISI, Google Scholar

Rainey PB, Remigi P, Farr AD, Lind PA

. 2017 Darwin was right: where now for experimental evolution? بالعملة. Opin Genet. ديف. 47, 102-109. (doi:10.1016/j.gde.2017.09.003) Crossref, PubMed, ISI, Google Scholar

Maltez Thomas A, Prata Lima F, Maria Silva Moura L, Maria da Silva A, Dias-Neto E, Setubal JC

. 2018 Comparative metagenomics . طرق مول. بيول. 1704, 243-260. (doi:10.1007/978-1-4939-7463-4_8) Crossref, PubMed, Google Scholar

. 2011 Microbial diversity of cellulose hydrolysis . بالعملة. Opin ميكروبيول. 14, 259-263. (doi:10.1016/j.mib.2011.04.004) Crossref, PubMed, ISI, Google Scholar

. 2002 Enzymology and bioenergetics of respiratory nitrite ammonification . FEMS ميكروبيول. القس. 26, 285-309. (doi:10.1111/j.1574-6976.2002.tb00616.x) Crossref, PubMed, ISI, Google Scholar

Goddard MR, Godfray HCJ, Burt A

. 2005 Sex increases the efficacy of natural selection in experimental yeast populations . طبيعة سجية 434, 636-640. (doi:10.1038/nature03405) Crossref, PubMed, ISI, Google Scholar

McDonald MJ, Rice DP, Desai MM

. 2016 Sex speeds adaptation by altering the dynamics of molecular evolution . طبيعة سجية 531, 233. (doi:10.1038/nature17143) Crossref, PubMed, ISI, Google Scholar

. 2011 Horizontal gene exchange in environmental microbiota . أمام. ميكروبيول. 2, 158. (doi:10.3389/fmicb.2011.00158) Crossref, PubMed, ISI, Google Scholar

Colombi E, Straub C, Kunzel S, Templeton MD, McCann HC, Rainey PB

. 2017 Evolution of copper resistance in the kiwifruit pathogen سيودوموناس سيرينجاي الكهروضوئية. actinidiae through acquisition of integrative conjugative elements and plasmids . بيئة. ميكروبيول. 19, 819-832. (doi:10.1111/1462-2920.13662) Crossref, PubMed, ISI, Google Scholar

Hall JPJ, Brockhurst MA, Harrison E

. 2017 Sampling the mobile gene pool: innovation via horizontal gene transfer in bacteria . فيل. عبر. R. Soc. ب 372, 20160424. (doi:10.1098/rstb.2016.0424) Link, ISI, Google Scholar

. 2003 Prophages and bacterial genomics: what have we learned so far? مول. ميكروبيول. 49, 277-300. (doi:10.1046/j.1365-2958.2003.03580.x) Crossref, PubMed, ISI, Google Scholar

2015 CDD: NCBI's conserved domain database . الدقة الأحماض النووية. 43, D222-D226. (doi:10.1093/nar/gku1221) Crossref, PubMed, ISI, Google Scholar

Seed KD, Lazinski DW, Calderwood SB, Camilli A

. 2013 A bacteriophage encodes its own CRISPR/Cas adaptive response to evade host innate immunity . طبيعة سجية 494, 489-491. (doi:10.1038/nature11927) Crossref, PubMed, ISI, Google Scholar

. 2016 Horizontal gene transfer of chromosomal Type II toxin-antitoxin systems of الإشريكية القولونية . FEMS ميكروبيول. بادئة رسالة. 363, fnv238. (doi:10.1093/femsle/fnv238) Crossref, PubMed, ISI, Google Scholar

. 2017 Carriage of type II toxin-antitoxin systems by the growing group of IncX plasmids . بلازميد 91, 19-27. (doi:10.1016/j.plasmid.2017.02.006) Crossref, PubMed, ISI, Google Scholar

Singhania RR, Patel AK, Sukumaran RK, Larroche C, Pandey A

. 2013 Role and significance of beta-glucosidases in the hydrolysis of cellulose for bioethanol production . بيوريسور. تكنول. 127, 500-507. (doi:10.1016/j.biortech.2012.09.012) Crossref, PubMed, ISI, Google Scholar

2005 The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes . الدقة الأحماض النووية. 33, 5691-5702. (doi:10.1093/nar/gki866) Crossref, PubMed, ISI, Google Scholar

. 2017 Convergence and divergence in a long-term experiment with bacteria . أكون. نات. 190, S57-S68. (doi:10.1086/691209) Crossref, PubMed, ISI, Google Scholar

Chu HY, Sprouffske K, Wagner A

. 2018 Assessing the benefits of horizontal gene transfer by laboratory evolution and genome sequencing . BMC Evol. بيول. 18, 54. (doi:10.1186/s12862-018-1164-7) Crossref, PubMed, ISI, Google Scholar

Frazão N, Sousa A, Lässig M, Gordo I

. 2019 Horizontal gene transfer overrides mutation in الإشريكية القولونية colonizing the mammalian gut . بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 116, 17 906-17 915. (doi:10.1073/pnas.1906958116) Crossref, ISI, Google Scholar

Zhao SJ, Lieberman TD, Poyet M, Kauffman KM, Gibbons SM, Groussin M, Xavier RJ, Alm EJ

. 2019 Adaptive evolution within gut microbiomes of healthy people . Cell Host Microbe 25, 656. (doi:10.1016/j.chom.2019.03.007) Crossref, PubMed, ISI, Google Scholar

. 1989 Reviving the superorganism . J. Theor. بيول. 136, 337-356. (doi:10.1016/S0022-5193(89)80169-9) Crossref, PubMed, ISI, Google Scholar

Swenson W, Wilson DS, Elias R

. 2000 Artificial ecosystem selection . بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 97, 9110-9114. (doi:10.1073/pnas.150237597) Crossref, PubMed, ISI, Google Scholar

. 2019 Simulations reveal challenges to artificial community selection and possible strategies for success . بلوس بيول. 17, e3000295. (doi:10.1371/journal.pbio.3000295) Crossref, PubMed, ISI, Google Scholar

Black AJ, Bourrat P, Rainey PB.

في الصحافة. Ecological scaffolding and the evolution of individuality . نات. ايكول. Evol. (doi:10.1038/s41559-019-1086-9) ISI, Google Scholar

. 1934 The struggle for existence . Baltimore, MD : Williams & Wilkins . كروسريف ، الباحث العلمي من Google

Rosenzweig RF, Sharp RR, Treves DS, Adams J

. 1994 Microbial evolution in a simple unstructured environment: genetic differentiation in الإشريكية القولونية . علم الوراثة 137, 903-917. PubMed, ISI, Google Scholar

Rainey PB, Buckling A, Kassen R, Travisano M

. 2000 The emergence and maintenance of diversity: insights from experimental bacterial populations . اتجاهات Ecol. Evol. 15, 243-247. (doi:10.1016/S0169-5347(00)01871-1) Crossref, PubMed, ISI, Google Scholar

. 2002 Functional redundancy in ecology and conservation . Oikos 98, 156-162. (doi:10.1034/j.1600-0706.2002.980116.x) Crossref, ISI, Google Scholar

2018 Function and functional redundancy in microbial systems . نات. ايكول. Evol. 2, 936-943. (doi:10.1038/s41559-018-0519-1) Crossref, PubMed, ISI, Google Scholar

Landsberger M, Gandon S, Meaden S, Rollie C, Chevallereau A, Buckling A, Westra ER, van Houte S

. 2018 Anti-CRISPR phages cooperate to overcome CRISPR-Cas immunity . زنزانة 174, 908-916. (doi:10.1016/j.cell.2018.05.058) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Cournac A, Flot JF, Marie-Nelly H, Mozziconacci J, Koszul R

. 2014 Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms . eLife 3, e03318. (doi:10.7554/eLife.03318) Crossref, PubMed, ISI, Google Scholar

. 2011 Microbial nitrogen cycling processes in oxygen minimum zones . Annu. القس مار. علوم. 3, 317-345. (doi:10.1146/annurev-marine-120709-142814) Crossref, PubMed, ISI, Google Scholar

Givens DI, Adamson AH, Cobby JM

. 1988 The effect of ammoniation on the nutritive value of wheat, barley and oat straws. ثانيًا. Digestibility and energy value measurements في الجسم الحي and their prediction from laboratory measurements . الرسوم المتحركة. Feed Sci. تكنول. 19, 173-184. (doi:10.1016/0377-8401(88)90065-X) Crossref, ISI, Google Scholar

. 2007 Biology's next revolution . طبيعة سجية 445, 369. (doi:10.1038/445369a) Crossref, PubMed, ISI, Google Scholar

. 2009 Darwinian evolution in the light of genomics . الدقة الأحماض النووية. 37, 1011-1034. (doi:10.1093/nar/gkp089) Crossref, PubMed, ISI, Google Scholar

. 2010 Horizontal gene transfer in evolution: facts and challenges . بروك. R. Soc. ب 277, 819-827. (doi:10.1098/rspb.2009.1679) Link, ISI, Google Scholar

Ochman H, Lawrence JG, Groisman EA

. 2000 Lateral gene transfer and the nature of bacterial innovation . طبيعة سجية 405, 299-304. (doi:10.1038/35012500) Crossref, PubMed, ISI, Google Scholar

. 2011 العناصر الجينية الأنانية والصراع الجيني والابتكار التطوري. بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 108(Suppl. 2)), 10 863-10 870. (doi:10.1073/pnas.1102343108) Crossref, ISI, Google Scholar

. 2013 Horizontal gene transfer and the evolution of bacterial and archaeal population structure . اتجاهات الجينات. 29, 170-175. (doi:10.1016/j.tig.2012.12.006) Crossref, PubMed, ISI, Google Scholar

Fullmer MS, Soucy SM, Gogarten JP

. 2015 The pan-genome as a shared genomic resource: mutual cheating, cooperation and the black queen hypothesis . أمام. ميكروبيول. 6, ARTN 728. (doi:10.3389/fmicb.2015.00728) Crossref, ISI, Google Scholar

. 2018 Processes and patterns of interaction as units of selection: an introduction to ITSNTS thinking . بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 115, 4006-4014. (doi:10.1073/pnas.1722232115) Crossref, PubMed, ISI, Google Scholar

. 2011 FLASH: fast length adjustment of short reads to improve genome assemblies . المعلوماتية الحيوية 27, 2957-2963. (doi:10.1093/bioinformatics/btr507) Crossref, PubMed, ISI, Google Scholar

. 2011 Quality control and preprocessing of metagenomic datasets . المعلوماتية الحيوية 27, 863-864. (doi:10.1093/bioinformatics/btr026) Crossref, PubMed, ISI, Google Scholar

2016 The MG-RAST metagenomics database and portal in 2015 . الدقة الأحماض النووية. 44, D590-D594. (doi:10.1093/nar/gkv1322) Crossref, PubMed, ISI, Google Scholar

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ

. 1990 Basic local alignment search tool . جيه مول. بيول. 215, 403-410. (doi:10.1016/S0022-2836(05)80360-2) Crossref, PubMed, ISI, Google Scholar

Li D, Liu CM, Luo R, Sadakane K, Lam TW

. 2015 MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph . المعلوماتية الحيوية 31, 1674-1676. (doi:10.1093/bioinformatics/btv033) Crossref, PubMed, ISI, Google Scholar

Rice P, Longden I, Bleasby A

. 2000 EMBOSS: the European molecular biology open software suite . اتجاهات الجينات. 16, 276-277. (doi:10.1016/S0168-9525(00)02024-2) Crossref, PubMed, ISI, Google Scholar

Niu B, Zhu Z, Fu L, Wu S, Li W

. 2011 FR-HIT, a very fast program to recruit metagenomic reads to homologous reference genomes . المعلوماتية الحيوية 27, 1704-1705. (doi:10.1093/bioinformatics/btr252) Crossref, PubMed, ISI, Google Scholar


Influenza Virus Genome Sequencing and Genetic Characterization

Influenza viruses are constantly changing, in fact all influenza viruses undergo genetic changes over time (for more information, see How the Flu Virus Can Change: &ldquoDrift&rdquo and &ldquoShift&rdquo). An influenza virus&rsquo genome consists of all genes that make up the virus. CDC conducts year-round surveillance of circulating influenza viruses to monitor changes to the genome (or parts of the genome) of these viruses. This work is performed as part of routine U.S. influenza surveillance and as part of CDC&rsquos role as a World Health Organization (WHO) Collaborating Center for Reference and Research on Influenza. The information CDC collects from studying genetic changes (also known as &ldquosubstitutions,&rdquo &ldquovariants&rdquo or &ldquomutations&rdquo) in influenza viruses plays an important public health role by helping to determine whether vaccines and antiviral drugs will work against currently-circulating influenza viruses, as well as helping to determine the potential for influenza viruses in animals to infect humans.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Nucleotides are organic molecules that form the structural unit building block of nucleic acids, such as RNA or DNA. All influenza viruses consist of single-stranded RNA as opposed to dual-stranded DNA. The RNA genes of influenza viruses are made up of chains of nucleotides that are bonded together and coded by the letters A, C, G and U, which stand for adenine, cytosine, guanine, and uracil, respectively. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they can affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Influenza A and B viruses &ndash the primary influenza viruses that infect people &ndash are RNA viruses that have eight gene segments. These genes contain &lsquoinstructions&rsquo for making new viruses, and it&rsquos these instructions that an influenza virus uses once it infects a human cell to trick the cell into producing more influenza viruses, thereby spreading infection.

Influenza genes consist of a sequence of molecules called النيوكليوتيدات that bond together in a chain-like shape. Nucleotides are designated by the letters A, C, G and U.

تسلسل الجينوم is a process that determines the order, or sequence, of the nucleotides (i.e., A, C, G and U) in each of the genes present in the virus&rsquos genome. Full genome sequencing can reveal the approximately 13,500-letter sequence of all the genes of the virus&rsquo genome.

Each year CDC performs whole genome sequencing on about 7,000 influenza viruses from original clinical samples collected through virologic surveillance. An influenza A or B virus&rsquo genome contains eight gene segments that encode (i.e., determine the structure and features of) the virus&rsquo 12 proteins, including its two primary surface proteins: hemagglutinin (HA) and neuraminidase (NA). An influenza virus&rsquo surface proteins determine important properties of the virus, including how the virus responds to certain antiviral drugs, the virus&rsquo genetic similarity to current influenza vaccine viruses, and the potential for zoonotic (animal origin) influenza viruses to infect human hosts.

Genetic Characterization

CDC and other public health laboratories around the world have been sequencing the genes of influenza viruses since the 1980s. CDC contributes gene sequences to public databases, such as GenBank external icon and the Global Initiative on Sharing Avian Influenza Data (GISAID) external icon , for use by public health researchers. The resulting libraries of gene sequences allow CDC and other laboratories to compare the genes of currently circulating influenza viruses with the genes of older influenza viruses and viruses used in vaccines. This process of comparing genetic sequences is called genetic characterization. CDC uses genetic characterization for the following reasons:

  • To determine how closely &ldquorelated&rdquo or similar flu viruses are to one another genetically
  • To monitor how flu viruses are evolving
  • To identify genetic changes that affect the virus&rsquo properties. For example, to identify the specific changes that are associated with influenza viruses spreading more easily, causing more-severe disease, or developing resistance to antiviral drugs
  • To assess how well an influenza flu vaccine might protect against a particular influenza virus based on its genetic similarity to the virus
  • To monitor for genetic changes in influenza viruses circulating in animal populations that could enable them to infect humans.

The relative differences among a group of influenza viruses are shown by organizing them into a graphic called a &lsquophylogenetic tree.&rsquo Phylogenetic trees for influenza viruses are like family (genealogy) trees for people. These trees show how closely &lsquorelated&rsquo individual viruses are to one another. Viruses are grouped together based on whether their genes&rsquo nucleotides are identical or not. Phylogenetic trees of influenza viruses will usually display how similar the viruses&rsquo hemagglutinin (HA) or neuraminidase (NA) genes are to one another. Each sequence from a specific influenza virus has its own branch on the tree. The degree of genetic difference (number of nucleotide differences) between viruses is represented by the length of the horizontal lines (branches) in the phylogenetic tree. The further apart viruses are on the horizontal axis of a phylogenetic tree, the more genetically different the viruses are to one another.

شكل. A phylogenetic tree.

For example, after CDC sequences an influenza A(H3N2) virus collected through surveillance, the virus sequence is cataloged with other virus sequences that have a similar HA gene (H3), and a similar NA gene (N2). As part of this process, CDC compares the new virus sequence with the other virus sequences, and looks for differences among them. CDC then uses a phylogenetic tree to visually represent how genetically different the A(H3N2) viruses are from each other.

CDC performs genetic characterization of influenza viruses year round. This genetic data is used in conjunction with virus antigenic characterization data to help determine which vaccine viruses should be chosen for the upcoming Northern Hemisphere or Southern Hemisphere influenza vaccines. In the months leading up to the WHO vaccine consultation meetings in February and September, CDC collects influenza viruses through surveillance and compares the HA and NA gene sequences of current vaccine viruses against those of circulating flu viruses. This is one way to assess how closely related the circulating influenza viruses are to the viruses the seasonal flu vaccine was formulated to protect against. As viruses are collected and genetically characterized, differences can be revealed.

For example, sometimes over the course of a season, circulating viruses will change genetically, which causes them to become different from the corresponding vaccine virus. This is one indication that a different vaccine virus may need to be selected for the next flu season&rsquos vaccine, although other factors, including antigenic characterization findings, heavily influence vaccine decisions. The HA and NA surface proteins of influenza viruses are antigens, which means they are recognized by the immune system and are capable of triggering an immune response, including production of antibodies that can block infection. Antigenic characterization refers to the analysis of a virus&rsquos reaction with antibodies to help assess how it relates to another virus.

Methods of Flu Genome Sequencing

One influenza sample contains عديدة influenza virus particles that were grown in a test tube and that often have small genetic differences in comparison to one another among the whole population of sibling viruses.

Traditionally, scientists have used a sequencing technique called &ldquothe Sanger reaction&rdquo to monitor influenza evolution as part of virologic surveillance. Sanger sequencing identifies the predominant genetic sequence among the many influenza viruses found in an isolate. This means small variations in the population of viruses present in a sample are not reflected in the final result. Scientists often use the Sanger method to conduct partial genome sequencing of influenza viruses, while newer technologies (see next paragraph) are better suited for whole genome sequencing.

Over the past five years, CDC has been using &ldquoNext Generation Sequencing (NGS)&rdquo methodologies, which have greatly expanded the amount of information and detail that sequencing analysis can provide. NGS uses advanced molecular detection (AMD) to identify gene sequences from each virus in a sample. Therefore, NGS reveals the genetic variations among many different influenza virus particles in a single sample, and these methods also reveal the entire coding region of the genomes. This level of detail can directly benefit public health decision-making in important ways, but data must be carefully interpreted by highly-trained experts in the context of other available information. See AMD Projects: Improving Influenza Vaccines for more information about how NGS and AMD are revolutionizing flu genome mapping at CDC.



تعليقات:

  1. Cherokee

    أقترح عليك زيارة موقع يوجد فيه الكثير من المعلومات حول هذا السؤال.

  2. Kile

    أود التحدث معك حول هذه القضية.

  3. Ryland

    أعتقد أنني سأقوم بتصحيح القرار. لا تيأس.

  4. Gardam

    هذا شيء قيم جدا

  5. Heywood

    نعم ، تقريبا واحد ونفس الشيء.

  6. Mokinos

    تبدو جذابة تماما



اكتب رسالة