معلومة

كيف تحسب أجهزة التسلسل عالية الإنتاجية / NGS درجات الجودة؟

كيف تحسب أجهزة التسلسل عالية الإنتاجية / NGS درجات الجودة؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا في حيرة من أمري حول كيفية حساب درجات الجودة فعليًا بواسطة متسلسلات الحمض النووي مثل Illumina. لكل استدعاء أساسي ، يتم حساب بعض قيم توقع الجودة ، بناءً على الخصائص المختلفة لآلة التسلسل ، مثل شدة الضوء أثناء القراءة.

هل نعرف بالضبط كيف يتم حساب نقاط الجودة هذه؟ كم عدد العوامل التي تدخل في حساب قيم الجودة هذه بالضبط؟


أقصر هذه الإجابة على Illumina. حتى ذلك الحين ، لا أعرف التفاصيل الدقيقة لتحليل البيانات الخام (إنه برنامج احتكاري).

تسجل Illumina أساسًا التسلسل بناءً على الصور الفوتوغرافية. كل نوكليوتيد له ملصق فلورسنت مميز. في الدورة ، يتم ضخ النوكليوتيدات ويتم غسل النيوكليوتيدات غير المدمجة (يتكرر هذا مع جميع النيوكليوتيدات). يعمل الليزر على إثارة الفلوروفور ويتم تسجيل الضوء المنبعث على شكل صورة فوتوغرافية. يوجد قالب الحمض النووي في شكل مجموعات من الخيوط (في مكان معين) ، مما يتيح التعرف البصري السهل على التألق.

الاستدعاء الأساسي يتم باستخدام تحليل الصور. يتم تحليل كل صورة لمعرفة شدة الألوان المختلفة وبناءً على ذلك يتم حساب نقاط الجودة. درجة الجودة هي في الأساس احتمالية تسجيل النوكليوتيدات في موضع معين (بناءً على كثافة اللون) مقارنةً بالنيوكليوتيدات الأخرى.

هذا هو أبسط تفسير لكيفية قيام Illumina بالاتصال الأساسي. هناك أنواع مختلفة من الأخطاء والتحيزات وهناك طرق إحصائية مختلفة لتصحيحها.

ألق نظرة على المراجع التالية لمزيد من التفاصيل:

  • ليدرجيربر وكريستيان وكريستوف ديسيموز. "قاعدة الاستدعاء لمنصات التسلسل من الجيل التالي." إحاطات في المعلوماتية الحيوية (2011): bbq077.
  • دورة Illumina MiSeq للتصوير واستدعاء القاعدة
  • ويكي تحليل الجينوم

ترتيب نقاط الجودة

تقيس درجات الجودة المتسلسلة احتمال تسمية قاعدة بشكل غير صحيح. باستخدام تقنية التسلسل عن طريق التوليف (SBS) ، يتم تعيين درجة جودة لكل قاعدة في القراءة بواسطة خوارزمية تشبه phred ، مماثلة لتلك التي تم تطويرها في الأصل لتجارب تسلسل Sanger.

تسلسل تقنية الفيديو
تسلسل تقنية الفيديو

شاهد كيف تعمل Illumina SBS.

تعريف Q Score

يتم تحديد درجة جودة التسلسل لقاعدة معينة ، Q ، بالمعادلة التالية:

حيث e هو الاحتمال المقدر لخطأ الاستدعاء الأساسي.

  • نقاط Q أعلى تشير إلى احتمال خطأ أقل.
  • درجات Q أقل يمكن أن يؤدي إلى عدم استخدام جزء كبير من القراءات. قد تؤدي أيضًا إلى زيادة المكالمات المتغيرة الإيجابية الكاذبة ، مما يؤدي إلى استنتاجات غير دقيقة.

كما هو موضح أدناه ، تمثل درجة الجودة 20 معدل خطأ 1 في 100 ، مع دقة مكالمة مقابلة تبلغ 99٪.

نظرة عامة على تقنية SBS

تتيح تقنية Illumina التسلسل المتوازي بشكل كبير باستخدام كيمياء SBS محسّنة.

العلاقة بين تسلسل نقاط الجودة ودقة الاتصال الأساسي
نقاط الجودة احتمال استدعاء قاعدة غير صحيح دقة استدعاء القاعدة المستنبطة
10 (س 10) 1 من كل 10 90%
20 (س 20) 1 في 100 99%
30 (س 30) 1 في 1000 99.9%

نتائج جودة تسلسل Illumina

تقدم كيمياء تسلسل Illumina دقة عالية ، حيث تسجل الغالبية العظمى من القواعد Q30 وما فوق. يعد هذا المستوى من الدقة مثاليًا لمجموعة من تطبيقات التسلسل ، بما في ذلك الأبحاث السريرية.

تعرف على كيفية استخدام PhiX كعنصر تحكم أثناء تشغيل مراقبة الجودة في Illumina NGS.

اختيار شركة NGS

ابحث عن شركة التسلسل من الجيل التالي الأفضل في فئتها باستخدام أدوات المعلوماتية الحيوية سهلة الاستخدام والدعم والخدمة الرائدين في الصناعة.

معلومات إضافية حول نقاط الجودة

لمزيد من المعلومات المتعمقة حول تسلسل درجات الجودة ، اقرأ الملاحظات الفنية التالية:

دليل المبتدئين إلى NGS

هل تفكر في إحضار NGS إلى مختبرك ، ولكنك غير متأكد من أين تبدأ؟ تغطي هذه الموارد الموضوعات الرئيسية في NGS وهي مصممة لمساعدتك في التخطيط لتجربتك الأولى.

هل أنت مهتم بتلقي الرسائل الإخبارية ودراسات الحالة والمعلومات حول الطلبات الجديدة؟ أدخل عنوان البريد الالكتروني أدناه.

الحلول ذات الصلة

تسلسل الجيل التالي (NGS)

اكتشف النطاق الواسع من التجارب التي يمكنك إجراؤها باستخدام تسلسل الجيل التالي ، واكتشف كيفية عمل Illumina NGS.

فوائد تقنية SBS

توفر تقنية Illumina SBS دقة اتصال أساسية مثبتة ، مع أقل عدد من النتائج الإيجابية الزائفة والسلبية الكاذبة والأخطاء الخاطئة بين منصات NGS الرائدة.

منصات التسلسل

قارن بين أنظمة تسلسل الجيل التالي (NGS) حسب التطبيق والمواصفات. ابحث عن أدوات وأدلة لمساعدتك في اختيار جهاز التسلسل الصحيح.

مراجع
  1. Ewing B ، Hillier L ، Wendl MC ، Green P. (1998): استدعاء أساسي لتتبعات منظم التسلسل الآلي باستخدام phred. I. تقييم الدقة. الدقة الجينوم. 8 (3): 175-185
  2. Ewing B ، Green P. (1998): استدعاء أساسي لتتبعات جهاز التسلسل الآلي باستخدام phred. II. احتمالات الخطأ. الدقة الجينوم. 8 (3): 186-194

تقنيات مبتكرة

هدفنا في Illumina هو تطبيق تقنيات مبتكرة لتحليل التباين الجيني والوظيفة ، مما يجعل الدراسات الممكنة التي لم يكن من الممكن تخيلها حتى قبل بضع سنوات فقط. من المهم بالنسبة لنا تقديم حلول مبتكرة ومرنة وقابلة للتطوير لتلبية احتياجات عملائنا. بصفتنا شركة عالمية تضع قيمة عالية للتفاعلات التعاونية ، والتسليم السريع للحلول ، وتوفير أعلى مستوى من الجودة ، فإننا نسعى جاهدين لمواجهة هذا التحدي. تعمل تقنيات التسلسل والصفيف المبتكرة من Illumina على تعزيز التقدم الرائد في أبحاث علوم الحياة ، والجينوميات الانتقالية والمستهلكين ، والتشخيص الجزيئي.

للاستخدام البحثي فقط. ليس للاستخدام في إجراءات التشخيص (باستثناء ما هو مذكور على وجه التحديد).


علم الجينوم عالي الإنتاجية: NGS & amp ؛ صفائف

يعمل الباحثون على تسخير قوة تسلسل الجيل التالي عالي الإنتاجية (NGS) وتقنيات المصفوفات الدقيقة لإجراء تحليلات وراثية عالمية واسعة النطاق. غالبًا ما يركز هذا البحث على الاكتشاف الجيني متعدد العوامل لعلامات خطر الإصابة بالأمراض ، وقد يشمل البحث عن التغييرات في المتغيرات الجينية مثل تعدد أشكال النوكليوتيدات المفردة (SNPs) ، و indels ، ومتغيرات لصق ، والمتغيرات الهيكلية ، وعلامات المثيلة.

تتطلب دراسات الجينوم عالية الإنتاجية مع عشرات إلى مئات الآلاف من العينات أدوات سريعة وفعالة من حيث التكلفة. تقدم Illumina تقنيات تسلسل عالي الإنتاجية وتكنولوجيات مصفوفة مع حلول غير مسبوقة من عينة إلى تحليل وخبرة تعاونية لا مثيل لها لتلبية هذه الاحتياجات.

تقنية التسلسل عالي الإنتاجية من Illumina

تسلسل Illumina عن طريق التوليف (SBS) هي تقنية تسلسل متوازي على نطاق واسع أحدثت ثورة في قدرات التسلسل وأطلقت الجيل التالي في العلوم الجينومية. تجمع أحدث أجهزة التسلسل من Illumina بين التصوير عالي الأداء وأحدث خلايا التدفق لتحقيق زيادات هائلة في الإنتاجية.

جهاز التسلسل عالي الإنتاجية

بفضل الإنتاجية القابلة للتطوير التي لا مثيل لها ، والمرونة الهائلة لمجموعة واسعة من التطبيقات ، والتشغيل المبسط ، يعد نظام NovaSeq 6000 أقوى جهاز تسلسل من Illumina عالي الإنتاجية حتى الآن ، ويتم وضعه بشكل مثالي لمساعدة العلماء على إجراء دراسات الجينوم على نطاق واسع. يوفر النظام إخراجًا يصل إلى 6 تيرابايت و 20 مليار قراءة في أقل من يومين.

يناقش العلماء مشاريع التسلسل عالية الإنتاجية

NGS عالية الإنتاجية لتحديد أهداف سرطان الثدي

يتضمن مشروع أطلس سرطان الثدي إجراء تسلسل لأكثر من مليون خلية سرطانية فردية لمساعدة الباحثين على تحديد الأهداف العلاجية المحتملة.

التسلسل عالي الإنتاجية يدعم نمو مركز الجينوم في أستراليا

سمح تنفيذ NGS عالي السعة لمركز Deakin Genomics بتوسيع المشاريع لتشمل الأنواع القديمة والجديدة ، الكبيرة والصغيرة.

قيمة نهج اكتشاف الأدوية القائم على Panomics

كشفت دراسة سريرية كبيرة تدمج التسلسل مع التصوير والتقنيات متعددة الذرات والبيانات الضخمة عن أهداف علاجية جديدة للأمراض المزمنة.

مناهج الجينوم عالية الإنتاجية لتحديد أولويات المتغيرات الجينية الوظيفية

سمحت التطورات الحديثة في تقنيات التسلسل بتطوير استراتيجيات قائمة على الجينوم لفحص GWAS SNPs من حيث الأهمية الوظيفية المحتملة. تعمل التوليفات القوية للمقايسات التجريبية عالية الإنتاجية ، والنهج أحادية الخلية ، والتحليلات الحسابية على تسريع القدرة على ربط المتغيرات بالوظيفة ، وبالتالي ربط النمط الجيني بالنمط الظاهري.

حلول التسلسل عالية الإنتاجية المميزة

أتمتة إعداد مكتبة عالية الإنتاجية

بالنسبة للمختبرات التي تقوم بإعداد كميات كبيرة من مكتبات NGS ، توفر روبوتات معالجة السوائل وحلول الأتمتة الأخرى خيارًا جيدًا.

تسلسل متعدد

يسمح تعدد إرسال العينات بتجميع أعداد كبيرة من مكتبات NGS وتسلسلها في وقت واحد أثناء تشغيل واحد.

منتجات التسلسل واسعة النطاق

تعمل الشحنات أحادية الدفعة والميزات الأخرى على تمكين المعامل السريرية من تقليل وتيرة وتكلفة إعادة التحقق من الكواشف والبروتوكولات.

إعداد خط أنابيب المعلوماتية الحيوية

ابحث عن المعلومات والموارد للمساعدة في تبسيط عملية إنشاء البنية التحتية للمعلوماتية وخط أنابيب تحليل البيانات.

LIMS لـ NGS

تعرف على كيفية الاستفادة من نظام إدارة المعلومات المخبرية (LIMS) المحسّن لـ NGS ، واكتشف ما الذي تبحث عنه.

استمع من مختبرات الجينوم عالية الإنتاجية

إنشاء وتوسيع مرفق فعال للتنميط الجيني

أنشأت شركة Prenetics مختبرًا للتنميط الجيني عالي الإنتاجية لخدمة قاعدة عملائها المتزايدة في جنوب شرق آسيا.

يمكن أن تصبح درجات المخاطر متعددة الجينات أدوات مفيدة في صندوق أدوات الطبيب

يناقش الباحثون دراسات GWAS الكبيرة لتحديد مواقع مخاطر الحمض النووي المرتبطة بالأمراض وتطوير PRSs للتحقق السريري.

الارتقاء إلى النمط الجيني آلاف العينات

سمح تخطيط الموارد وسير عمل التنميط الجيني الآلي لـ GPBio بتحقيق الكفاءة الفورية ومكاسب الإنتاجية.

منتجات ميكروأري المميزة عالية الإنتاجية

مجموعة الفحص العالمية Infinium

مجموعة التنميط الجيني من الجيل التالي لعلم الوراثة على مستوى السكان ، وفحص المتغيرات ، ودراسات علم الصيدلة الجيني ، وأبحاث الطب الدقيق.

إنفينيوم إكس تي

حل ميكروأري شامل للتنميط الجيني على نطاق الإنتاج لما يصل إلى 50000 متغير مخصص فردي أو متعدد الأنواع.

Illumina Array LIMS

يسهل نظام LIMS الحديث هذا معالجة المصفوفة الدقيقة عالية الإنتاجية وتتبع العينات ، باستخدام أتمتة متقدمة وتحكم آلي دقيق.

الحلول ذات الصلة

علم الجينوم السكاني

تسعى برامج الجينوميات السكانية الوطنية إلى دمج مجموعات كبيرة ومتنوعة من البيانات ، والجمع بين المعلومات السريرية والبيانات الجينومية على نطاق واسع في نظام صحة التعلم.

التنميط الجيني عالي الإنتاجية

يمكن للتنميط الجيني واسع النطاق باستخدام المصفوفات تحديد المتغيرات المرتبطة بمخاطر المرض في مجموعات أو مجموعات كبيرة من السكان.

تقنية SBS

تستخدم تقنية تسلسل Illumina أجهزة إنهاء قابلة للانعكاس ذات علامات الفلورسنت لاكتشاف القواعد عند دمجها في سلاسل الحمض النووي المتنامية.

هل أنت مهتم بتلقي رسائل إخبارية ودراسات حالة ومعلومات عن جينوميات الأمراض المعقدة؟ الرجاء إدخال عنوان البريد الإلكتروني الخاص بك.

مصادر إضافية

قيادة اكتشاف IBD مع الجينوم التكاملي

يناقش الدكتور كارل أندرسون مناهج البحث الجينومي المتكامل في أبحاث مرض التهاب الأمعاء (IBD).

قيادة اكتشاف IBD مع الجينوم التكاملي

التأثيرات الوظيفية للمتغيرات الجينية

Tuuli Lappalainen ، دكتوراه تعمل على تحديد كيفية تأثير الاختلافات الجينية على خطر إصابة الفرد بأمراض معينة.

التأثيرات الوظيفية للمتغيرات الجينية

رؤية مشتركة لقوة WGS البشرية

يشارك قادة الجينوميات وجهة نظرهم حول تأثير الإنتاجية العالية والتسلسل السكاني في البحث السريري.

تشان زوكربيرج Biohub ونظام NovaSeq

يستخدم Chan Zuckerberg Biohub نظام NovaSeq لإجراء تجارب مبتكرة في علم الجينوم.

تقنيات مبتكرة

هدفنا في Illumina هو تطبيق تقنيات مبتكرة لتحليل التباين الجيني والوظيفة ، مما يجعل الدراسات الممكنة التي لم يكن من الممكن تخيلها حتى قبل بضع سنوات فقط. من المهم بالنسبة لنا تقديم حلول مبتكرة ومرنة وقابلة للتطوير لتلبية احتياجات عملائنا. بصفتنا شركة عالمية تضع قيمة عالية للتفاعلات التعاونية ، والتسليم السريع للحلول ، وتوفير أعلى مستوى من الجودة ، فإننا نسعى جاهدين لمواجهة هذا التحدي. تعمل تقنيات التسلسل والصفيف المبتكرة من Illumina على تعزيز التقدم الرائد في أبحاث علوم الحياة ، والجينوميات الانتقالية والمستهلكين ، والتشخيص الجزيئي.

للاستخدام البحثي فقط. ليس للاستخدام في إجراءات التشخيص (باستثناء ما هو مذكور على وجه التحديد).


تسلسل الجيل التالي (NGS)

تسلسل الجيل التالي (NGS) عبارة عن تقنية تسلسل متوازي على نطاق واسع توفر إنتاجية فائقة وقابلية توسعة وسرعة. تُستخدم هذه التقنية لتحديد ترتيب النيوكليوتيدات في الجينوم بأكمله أو المناطق المستهدفة من الحمض النووي أو الحمض النووي الريبي. أحدثت NGS ثورة في العلوم البيولوجية ، مما سمح للمختبرات بأداء مجموعة متنوعة من التطبيقات ودراسة الأنظمة البيولوجية بمستوى لم يكن ممكنًا من قبل.

تتطلب أسئلة الجينوم المعقدة اليوم معلومات عميقة تتجاوز قدرة تقنيات تسلسل الحمض النووي التقليدية. لقد ملأت NGS هذه الفجوة وأصبحت أداة يومية للإجابة على هذه الأسئلة.

تسلسل الجيل التالي للمبتدئين

سنرشدك خلال أساسيات NGS ، مع البرامج التعليمية والنصائح للتخطيط لتجربتك الأولى.

انظر ما يمكن أن تفعله NGS من أجلك

لقد غيرت تقنية NGS بشكل أساسي أنواع الأسئلة التي يمكن للعلماء طرحها والإجابة عليها. تتيح خيارات إعداد العينات المبتكرة وتحليل البيانات مجموعة واسعة من التطبيقات. على سبيل المثال ، تسمح NGS للمختبرات بما يلي:

  • تسلسل الجينوم الكامل بسرعة
  • تسلسل عميق للمناطق المستهدفة
  • استخدم تسلسل الحمض النووي الريبي (RNA-Seq) لاكتشاف متغيرات RNA الجديدة ومواقع لصق ، أو تحديد mRNAs لتحليل التعبير الجيني
  • تحليل العوامل اللاجينية مثل مثيلة الحمض النووي على مستوى الجينوم وتفاعلات الحمض النووي والبروتين
  • تسلسل عينات السرطان لدراسة المتغيرات الجسدية النادرة ، والنسخات الفرعية للورم ، وأكثر من ذلك
  • ادرس الميكروبيوم البشري
  • التعرف على مسببات الأمراض الجديدة

تسلسل الجينوم الكامل الذي يمكن الوصول إليه

باستخدام تسلسل Sanger القائم على الرحلان الكهربي ، استغرق مشروع الجينوم البشري أكثر من 10 سنوات وتكلف ما يقرب من 3 مليارات دولار.

على النقيض من ذلك ، فإن تسلسل الجيل التالي يجعل تسلسل الجينوم الكامل (WGS) متاحًا وعمليًا للباحث العادي. إنه يمكّن العلماء من تحليل الجينوم البشري بأكمله في تجربة تسلسل واحدة ، أو تسلسل آلاف إلى عشرات الآلاف من الجينوم في عام واحد.

أدوات تحليل بيانات NGS

استكشف أدوات سهلة الاستخدام مصممة لجعل تحليل البيانات في متناول أي عالم ، بغض النظر عن خبرة المعلوماتية الحيوية.

نطاق ديناميكي واسع لتنميط التعبيرات

يعد RNA-Seq القائم على NGS طريقة قوية تمكن الباحثين من اختراق عدم كفاءة وتكاليف التقنيات القديمة مثل المصفوفات الدقيقة. قياس التعبير الجيني للميكروأري مقيد بالضوضاء في النهاية المنخفضة وتشبع الإشارة في النهاية العليا.

في المقابل ، يحدد تسلسل الجيل التالي عدد قراءة التسلسل الرقمي المنفصل ، مما يوفر نطاقًا ديناميكيًا أوسع. 1،2،3

الدقة القابلة للضبط لـ NGS المستهدفة

يسمح لك التسلسل المستهدف بتسلسل مجموعة فرعية من الجينات أو مناطق جينومية معينة ذات أهمية ، مع التركيز بكفاءة وفعالية من حيث التكلفة على قوة NGS. NGS قابلة للتطوير بدرجة كبيرة ، مما يسمح لك بضبط مستوى الدقة لتلبية الاحتياجات التجريبية. اختر ما إذا كنت تريد إجراء مسح ضحل عبر عينات متعددة ، أو التسلسل على عمق أكبر مع عدد أقل من العينات للعثور على متغيرات نادرة في منطقة معينة.

NGS لـ COVID-19

يتم وضع تسلسل الجيل التالي بشكل فريد في نموذج لمراقبة الأمراض المعدية وتفشيها. تعرف على طرق NGS الموصى بها لاكتشاف وتوصيف SARS-CoV-2 ومسببات الأمراض التنفسية الأخرى ، وتتبع الانتقال ، ودراسة العدوى المشتركة ، والتحقيق في التطور الفيروسي.

كيف تعمل Illumina NGS؟

يستخدم تسلسل Illumina نهجًا مختلفًا اختلافًا جوهريًا عن طريقة إنهاء سلسلة Sanger الكلاسيكية. إنها تعزز التسلسل عن طريق تقنية التوليف (SBS) - تتبع إضافة النيوكليوتيدات المسمى أثناء نسخ سلسلة الحمض النووي - بطريقة موازية بشكل كبير.

ينتج عن تسلسل الجيل التالي كميات كبيرة من بيانات تسلسل الحمض النووي ، وهو أقل تكلفة وأقل استهلاكا للوقت من تسلسل سانجر التقليدي. 2 يمكن أن توفر أنظمة تسلسل Illumina إخراج بيانات يتراوح من 300 كيلو بايت إلى قواعد تيراباسية متعددة في عملية تشغيل واحدة ، اعتمادًا على نوع الأداة والتكوين.

تسلسل تقنية الفيديو

مقدمة في العمق NGS

تصف هذه النظرة العامة التفصيلية لتسلسل Illumina تطور علم الجينوم ، والتطورات الرئيسية في تكنولوجيا التسلسل ، والطرق الرئيسية ، وأساسيات كيمياء تسلسل Illumina ، والمزيد.

ماذا يمكنك أن تفعل مع الجيل التالي من التسلسل؟

شاهد كيف يستخدم العلماء NGS لتحقيق اكتشافات خارقة.
الوراثة من القابلية لـ COVID-19

تستخدم هذه الدراسة التي أجريت على مستوى المملكة المتحدة NGS لمقارنة جينومات مرضى COVID-19 المصابين بأمراض خطيرة وخفيفة ، للمساعدة في الكشف عن العوامل الوراثية المرتبطة بالحساسية.

استكشاف البيئة الدقيقة للورم

يستخدم الباحثون تقنيات الخلية الواحدة لدراسة البيئات الميكروية للسرطان ، لتوضيح أنماط التعبير الجيني واكتساب نظرة ثاقبة حول مقاومة الأدوية والورم الخبيث.

استخدام NGS لدراسة الأمراض النادرة

يثبت تسلسل الإكسوم الكامل والترانسكريبتوم فائدته في الكشف عن الطفرات والمسارات المرتبطة بالأمراض الوراثية النادرة.

تطور Illumina NGS

تشمل الإنجازات التكنولوجية الحديثة لتسلسل الجيل التالي من Illumina ما يلي:

    : يجمع نظام iSeq 100 بين شريحة تكميلية من أشباه الموصلات المعدنية بأكسيد معدني (CMOS) مع قناة SBS أحادية القناة لتقديم بيانات عالية الدقة في نظام مضغوط. : تتيح هذه التقنية تسلسلًا أسرع من الإصدار الأصلي المكون من 4 قنوات لتقنية SBS ، بنفس دقة البيانات العالية. : يوفر هذا الخيار مستوى استثنائيًا من الإنتاجية لتطبيقات التسلسل المتنوعة. : تعرف على الكيفية التي يوفر بها نظام NovaSeq 6000 إخراجًا قابلًا للضبط يصل إلى 6 تيرابايت

تاريخ تسلسل Illumina

اكتشف كيف نشأت وتطورت تقنية Illumina SBS بمرور الوقت.

إحضار NGS إلى مختبرك

تقدم الموارد أدناه إرشادات قيمة للعلماء الذين يفكرون في شراء نظام تسلسل من الجيل التالي.

تنزيل دليل المشتري

الاعتبارات التجريبية NGS

تعرف على مدة القراءة والتغطية ودرجات الجودة والاعتبارات التجريبية الأخرى لمساعدتك في التخطيط لتشغيل التسلسل.

استخدم أدواتنا التفاعلية لمساعدتك في إنشاء بروتوكول NGS مخصص أو تحديد المنتجات والأساليب المناسبة لمشروعك.

المصطلحات الأساسية في NGS

استخدم مسرد التسلسل من الجيل التالي لتوضيح المصطلحات الأساسية والمفاهيم المهمة أثناء التخطيط لمشروع التسلسل الخاص بك.

دليل الطرق

الوصول إلى المعلومات التي تحتاجها - من BeadChips إلى إعداد المكتبة لدراسات الجينوم ، أو النسخ ، أو دراسات الإيبيجينوم لاختيار التسلسل ، والتحليل ، والدعم - كل ذلك في مكان واحد. حدد أفضل الأدوات لمختبرك من خلال دليلنا الشامل المصمم خصيصًا لتطبيقات البحث.

أخبار الجينوم

قامت شركة Illumina وإطلاق الجيل التالي من الجينوم بتوسيع NIPT في تايلاند

سيقدم هذا التعاون VeriSeq ™ NIPT Solution v2 في جنوب شرق آسيا

تُعد مجموعة أدوات مكتبة Illumina المُحسَّنة الحل الأمثل لمرفق أبحاث الجينوم الأسترالي

تعلن شركة Illumina عن الفائز الثالث عشر بمنحة الصالح الزراعي الكبرى

يستخدم الدكتور بيرترام برينيج منحة الجينوم للمساعدة في إنقاذ النحل

هل أنت مهتم بتلقي الرسائل الإخبارية ودراسات الحالة والمعلومات من Illumina بناءً على مجال اهتمامك؟ أفتح حساب الأن.

الحلول ذات الصلة

إعداد مكتبة NGS

مهام سير عمل إعداد وإثراء مكتبة NGS بسيطة وسريعة من Illumina لإعداد عيناتك للتسلسل.

خدمات التسلسل

الوصول إلى خدمات تسلسل الجيل التالي السريعة والموثوقة التي توفر بيانات عالية الجودة وتوفر خبرة علمية واسعة النطاق.

تدريب Illumina NGS & Microarray

اعمل مع مدربي Illumina الخبراء واحصل على تدريب عملي. نقدم أيضًا دورات عبر الإنترنت وندوات عبر الإنترنت ومقاطع فيديو وبودكاست.

مراجع
  1. Wang Z ، Gerstein M ، Snyder M. RNA-Seq: أداة ثورية للنسخ. نات ريف جينيت. 200910:57–63.
  2. فيلهلم بت ، لاندري جونيور. RNA-Seq - قياس كمي للتعبير من خلال تسلسل الحمض النووي الريبي المتوازي بشكل كبير. أساليب. 200948:249–57.
  3. Zhao S و Fung-Leung WP و Bittner A و Ngo K و Liu X. مقارنة بين RNA-Seq و microarray في التنميط النسخي للخلايا التائية المنشطة. بلوس واحد. 2014169 (1): e78644.

تقنيات مبتكرة

هدفنا في Illumina هو تطبيق تقنيات مبتكرة لتحليل التباين الجيني والوظيفة ، مما يجعل الدراسات الممكنة التي لم يكن من الممكن تخيلها حتى قبل بضع سنوات فقط. من المهم بالنسبة لنا تقديم حلول مبتكرة ومرنة وقابلة للتطوير لتلبية احتياجات عملائنا. بصفتنا شركة عالمية تضع قيمة عالية للتفاعلات التعاونية ، والتسليم السريع للحلول ، وتوفير أعلى مستوى من الجودة ، فإننا نسعى جاهدين لمواجهة هذا التحدي. تعمل تقنيات التسلسل والصفيف المبتكرة من Illumina على تعزيز التقدم الرائد في أبحاث علوم الحياة ، والجينوميات الانتقالية والمستهلكين ، والتشخيص الجزيئي.

للاستخدام البحثي فقط. ليس للاستخدام في إجراءات التشخيص (باستثناء ما هو مذكور على وجه التحديد).


تسلسل الجيل التالي للمبتدئين

تغطي هذه الموارد الموضوعات الرئيسية في تسلسل الجيل التالي (NGS) المصمم للمبتدئين. سنوجهك خلال سير العمل والبرامج التعليمية والتخطيط لتجربتك الأولى.

التأثير العالمي لـ NGS

يُحدث تسلسل الجيل التالي ثورة في البحث ، مما يتيح إجراء تجارب لم تكن ممكنة من قبل.

التأثير العالمي لـ NGS

فوائد تسلسل الجيل التالي

قارن NGS بالتقنيات الأخرى ومعرفة ما إذا كانت مناسبة لك ولأهدافك البحثية.

NGS مقابل تسلسل سانجر

تعرف على الاختلافات الرئيسية بين التقنيات واكتشف متى يمكن أن تكون NGS خيارًا أكثر فعالية.

NGS مقابل qPCR

اكتشف كيف تقدم NGS قوة اكتشاف أعلى مقارنة بـ qPCR ، مما يجعلها طريقة مفيدة لقياس التباين.

NGS مقابل Microarrays

اكتشف لماذا يوفر تسلسل الحمض النووي الريبي مع NGS نطاقًا ديناميكيًا واسعًا وحساسية عالية لاكتشاف النصوص الجديدة.

كيف تعمل NGS

تتضمن عملية تسلسل الجيل التالي الأساسية تجزئة الحمض النووي / الحمض النووي الريبي إلى أجزاء متعددة ، وإضافة محولات ، وتسلسل المكتبات ، وإعادة تجميعها لتشكيل تسلسل جينومي. من حيث المبدأ ، يشبه هذا المفهوم التشريد الكهربائي الشعري. الاختلاف الجوهري هو أن NGS تسلسل ملايين الأجزاء بطريقة متوازية بشكل كبير ، مما يحسن السرعة والدقة مع تقليل تكلفة التسلسل.

كيف تعمل NGS

مسار عمل NGS الخاص بك

يحضر
تسلسل
حلل

يتضمن تسلسل الجيل التالي ثلاث خطوات أساسية: إعداد المكتبة ، والتسلسل ، وتحليل البيانات. ابحث عن موارد لمساعدتك في الاستعداد لكل خطوة واطلع على مثال لسير العمل لتسلسل الجينوم الكامل للميكروبات ، وهو تطبيق NGS شائع.

دروس NGS للمبتدئين

يمكن أن يكون البدء في استخدام NGS أسهل مما تتوقع. شاهد برامجنا التعليمية المجانية لكل خطوة من الخطوات الرئيسية في سير العمل. هل تريد تدريبًا مخصصًا لمختبرك يتم تقديمه وجهًا لوجه أو افتراضيًا؟ نحن نقدم ذلك أيضًا.

التخطيط لميزانية NGS

انخفضت تكلفة NGS بشكل كبير في السنوات الأخيرة ، مما أتاح للمختبرات من جميع الأحجام إدخال التسلسل في دراساتهم. هناك بعض العوامل التي يجب مراعاتها عند التخطيط لميزانيتك ، مثل معدات المختبر وحجم العينة.

ابدأ مع أساسيات NGS

لنبدأ بنظرة عامة مفصلة على الخطوات الرئيسية في سير عمل تسلسل الجيل التالي.

مجتمع Illumina

انضم إلى عملاء Illumina الآخرين في مجتمع Illumina عبر الإنترنت. تعاون مع وسطاء وعملاء ومطوري Illumina. ناقش أفضل الممارسات واستكشاف الأخطاء وإصلاحها وتعرف على كيفية استخدام الآخرين لمسلسلات Illumina ومجموعات إعداد المكتبات وتحليل البيانات الآلي لدعم أبحاثهم.

مصادر إضافية

اختيار شركة NGS

ابحث عن شركة التسلسل من الجيل التالي الأفضل في فئتها مع أدوات المعلوماتية الحيوية سهلة الاستخدام والدعم والخدمة الرائدين في الصناعة.

مسرد تسلسل الجيل التالي

ابحث عن تعريفات للمصطلحات الشائعة والرسوم التوضيحية للمفاهيم المهمة في NGS.

NGS Workflow Consulting

ابدأ بشكل أسرع مع خبراء التصميم التجريبي لدينا. * سنساعدك في تصميم سير عمل NGS المناسب لك.

انضم إلى مجتمع Illumina

في منتدانا المفتوح ، يمكن للباحثين أن يجتمعوا لدعم بعضهم البعض ، وطرح الأسئلة ، والتعاون في العلوم الرائعة.

اتصل بنا

* غير متوفر في آسيا أو دول جنوب المحيط الهادئ.

تقنيات مبتكرة

هدفنا في Illumina هو تطبيق تقنيات مبتكرة لتحليل التباين الجيني والوظيفة ، مما يجعل الدراسات الممكنة التي لم يكن من الممكن تخيلها حتى قبل بضع سنوات فقط. من المهم بالنسبة لنا تقديم حلول مبتكرة ومرنة وقابلة للتطوير لتلبية احتياجات عملائنا. بصفتنا شركة عالمية تضع قيمة عالية للتفاعلات التعاونية ، والتسليم السريع للحلول ، وتوفير أعلى مستوى من الجودة ، فإننا نسعى جاهدين لمواجهة هذا التحدي. تعمل تقنيات التسلسل والصفيف المبتكرة من Illumina على تعزيز التقدم الرائد في أبحاث علوم الحياة ، والجينوميات الانتقالية والمستهلكين ، والتشخيص الجزيئي.

للاستخدام البحثي فقط. ليس للاستخدام في إجراءات التشخيص (باستثناء ما هو مذكور على وجه التحديد).


كيف تحسب أجهزة التسلسل عالية الإنتاجية / NGS درجات الجودة؟ - مادة الاحياء

يتم تقييم أداء تشغيل التسلسل الكلي من خلال تحديد ما إذا كان تشغيل التسلسل يفي بمواصفات Illumina الخاصة بدرجات الجودة ومخرجات البيانات. سيختلف أداء التشغيل الفعلي بناءً على نوع العينة والجودة وفلتر تمرير المجموعات. تستند المواصفات إلى مكتبة التحكم في Illumina PhiX عند كثافات الكتلة المدعومة.

أين يمكنني أن أجد مواصفات الجهاز؟

اتبع الروابط أدناه لصفحات مواصفات الأداة:

عارض تحليل التسلسل (SAV) هو برنامج مجاني يستخدم لتقييم أداء عمليات التشغيل المتسلسلة ، ويمكن تنزيله من موقع Illumina الإلكتروني:

  • SAV v2.4.7 من SAV على جميع الأدوات باستثناء MiSeq و NextSeq1000 / 2000 على الجهاز
    SAV v2.4.7 متوافق مع جميع الاستخدامات خارج الأداة (عن بُعد) التي تعمل بنظام Windows 7 أو إصدار أحدث
  • SAV v1.8.37 من SAV لعرض MiSeq على الجهاز

بمجرد تثبيت SAV ، افتحه وحدد علامة التبويب التي تحتوي على معلومات الاستعلام المطلوبة.

كيف يمكنني تحديد ما إذا كان الجري يفي بالمواصفات؟

يوجد أدناه مثال على تشغيل التحقق من صحة PhiX (2 × 151 نقطة أساس) على MiSeq ، باستخدام كواشف v2. مواصفات هذا التشغيل كالتالي:

  • إجمالي إخراج البيانات 4.5-5.1 جيجا بايت (جيجا بايت)
  • ما لا يقل عن 80٪ من القواعد التي تم استدعاؤها بدرجة جودة 30 أو أعلى (على الأقل 80٪ ≥ Q30)

    هل تتوافق درجة الجودة الإجمالية (Q30) مع المواصفات؟

لتحديد نقاط الجودة ، راجع علامة التبويب تحليل Q مخطط توزيع النتيجة وعلامة التبويب الملخص كما هو موضح أدناه.

مواصفات الجودة لتشغيل MiSeq المقترن نهاية 151 دورة Q30 80٪. يفي المدى بهذه المواصفات ، حيث أن النسبة المئوية Q30 هي & gt94٪.

لتحديد عائد التشغيل ، راجع المعلومات الموجودة في علامة تبويب الملخص كما هو موضح أدناه.

مواصفات العائد لتشغيل 151 دورة نهاية مقترنة هي & gt4.4 جيجا بايت. يفي المدى بهذه المواصفات ، حيث يبلغ إجمالي العائد 6.10 جيجا بايت.

ما هي المعلومات الإضافية التي يمكنني الحصول عليها من SAV؟

الصور التالية مأخوذة من مجموعة البيانات العامة BaseSpace: "MiSeq: Nextera DNA Flex (نسخ مكررة من E. coli ، B. cereus، و R. sphaeroides) ". ملاحظة: تمت إعادة تسمية Nextera DNA Flex إلى Illumina DNA Prep.

علامة تبويب التحليل: نظرة عامة على مقاييس التشغيل.

  1. يعرض مخطط خلية التدفق المقاييس ذات الترميز اللوني لكل بلاطة لخلية التدفق بالكامل.
  2. تعرض البيانات حسب الدورة مقاييس مختلفة لكل دورة تشغيل. حدد المقياس والمسار والسطح والقناة المعروضة باستخدام القوائم المنسدلة.
  3. يُظهر Q Score Distribution نظرة عامة سريعة على جودة التشغيل. تم العثور على Q30 للتشغيل بالكامل في الجزء العلوي الأيمن من هذا المربع.
  4. تُظهر البيانات حسب المسار قطعًا من المقاييس لكل حارة.
  5. تعرض Q Score Heatmap خريطة حرارية لدرجة Q حسب الدورة.

علامة تبويب التصوير: يعرض الصور المصغرة من التشغيل إذا كان ذلك متاحًا.

  1. قم بتبديل أي صورة قناة أساسية أو ملونة لعرضها هنا.
  2. إذا تم حفظ الصور المصغرة للتشغيل ، فسيتم عرضها هنا.

علامة تبويب الملخص: توفر مقاييس جودة البيانات الأساسية الملخصة لكل حارة وكل قراءة.

  1. يتم الإبلاغ عن تشغيل ملخص لكل قراءة ، بما في ذلك الجودة ، هنا.
  2. مزيد من التفاصيل لكل قراءة بما في ذلك الكثافة الدقيقة ، ومرشح تمرير المجموعات (PF) ، ومحاذاة النسبة المئوية.

علامة تبويب الفهرسة: النسبة المئوية للقراءات الإجمالية ولكل عينة يتم تحديدها إذا تم استخدام ورقة عينة وتم إجراء فك تعدد الإرسال.


مقارنة أداء منصات التسلسل عالية الإنتاجية الفوقية

تتوفر الآن ثلاثة أدوات تسلسل عالية الإنتاجية أعلى منضدة. تعد 454 GS Junior (Roche) و MiSeq (Illumina) و Ion Torrent PGM (تقنيات الحياة) ذات حجم طابعة ليزر وتوفر تكاليف إعداد وتشغيل متواضعة. يمكن لكل أداة توليد البيانات المطلوبة لمسودة تسلسل الجينوم البكتيري في أيام ، مما يجعلها جذابة لتحديد وتوصيف مسببات الأمراض في البيئة السريرية. قارنا أداء هذه الأدوات من خلال تسلسل عزلة من الإشريكية القولونية O104: H4 ، الذي تسبب في تفشي التسمم الغذائي في ألمانيا في عام 2011. كان لـ MiSeq أعلى معدل إنتاجية لكل تشغيل (1.6 جيجا بايت / تشغيل ، 60 ميجا بايت / ساعة) وأدنى معدلات خطأ. أنتج 454 GS Junior أطول قراءة (حتى 600 قاعدة) ومعظم التجميعات المتجاورة ولكن كان لديها أقل إنتاجية (70 ميجا بايت / تشغيل ، 9 ميجا بايت / ساعة). عند تشغيله في وضع 100 نقطة أساس ، حقق Ion Torrent PGM أعلى إنتاجية (80-100 ميجا بايت / ساعة). على عكس MiSeq ، أنتج كل من Ion Torrent PGM و 454 GS Junior أخطاء indel المرتبطة بالبوليمرات المتجانسة (أخطاء 1.5 و 0.38 لكل 100 قاعدة ، على التوالي).


لماذا أحتاج إلى قياس مكتبتي؟


هناك سببان رئيسيان لضرورة قياس المكتبات.

  1. تتطلب العمليات الكيميائية التي يقوم عليها تسلسل Illumina قدرًا مثاليًا من شظايا الحمض النووي المرتبطة بالمحول ليتم تحميلها في خطوة إنشاء الكتلة ، على سبيل المثال 6-10 مساءً لأداة MiSeq & reg (كيمياء v3).
  2. إذا تم تسلسل مكتبات متعددة في تشغيل واحد ، فمن المستحسن أن تكون تغطية التسلسل متساوية لكل مكتبة ، وبالتالي يجب نقل كمية متساوية من كل مكتبة إلى خطوة إنشاء الكتلة.

ماذا يحدث لمكتبتك أثناء التسلسل؟

لفهم أهمية التقدير الكمي الدقيق للمكتبة قبل التسلسل ، من الضروري أولاً فهم تسلسل الكيمياء وتفاعلاتها مع العينات التي تقوم بتسلسلها.

لأغراض هذه المقالة ، نركز على الكيمياء التي تكمن وراء متواليات Illumina الشهيرة (والرائدة في السوق) ، على الرغم من أن تقدير الكميات بالمكتبة يعد خطوة مهمة للتسلسل على أي منصة.

بناء الجسور وتعداد الكتل

المكونات الأساسية لتقنية تسلسل Illumina & rsquos هي خلايا التدفق وقدراتها على توليد الكتلة. تعتمد أجهزة تسلسل Illumina & rsquos على الكشف البصري لمجموعات الحمض النووي التي تتشكل على خلية التدفق الزجاجي ، وهي ظاهرة يتم تمكينها من خلال العشب الكثيف من البادئات التي تم تثبيتها مسبقًا في قناة خلية التدفق. أثناء إضافة مكتبتك إلى خلية التدفق ، يتم تهجين الأجزاء المفردة التي تقطعت بها السبل والمربوطة بالمحول إلى البادئات الثابتة المرصعة عبر خلية التدفق. هذه الخطوة هي المكان الذي يتم فيه اختبار دقة التعداد الكمي للمكتبة.

Cluster generation then occurs: each hybridized molecule undergoes multiple rounds of amplification to produce up to 1,000 copies of the same molecule in the same location on the flow cell: a &ldquocluster&rdquo, whose diameter is 1 micron or less. For more details on cluster generation, visit Illumina.com.

The amount of DNA initially loaded onto the flow cell directly influences the density of the clusters that form. Too little DNA and the clusters are likely to sparsely populate the flow cell. Too much DNA and the clusters will be too close together, making it difficult to interpret the sequencing data due to poor resolution, and resequencing of libraries will be required (Figure 1). Illumina&rsquos recommended input ranges, which differ depending on the specific Illumina instrument, help to ensure that the clusters forming on the flow cell have sufficient resolution, without wasting valuable flow cell space.

Figure 1: Optimal cluster density enables efficient & accurate quantitation
The density of library clusters as they form on the flow cell prior to sequencing is a key factor in the success of a sequencing run. Low concen- tration libraries (Left) fail to make optimal use of the space, while high concentration libraries (Right) lead to densely packed clusters that are difficult to call. Optimal cluster density (Center) makes the best use of flow cell real estate, without over crowding. Representative optical data generated during sequencing depicts variation in cluster densities as shown in the insets.

A deeper dive into equivalent representation

When you pool libraries, you increase the value of each sequencing run by increasing the number of samples that can be sequenced in a single run. However, if libraries are combined in unequal concentrations, this leads to biased representation of certain libraries over oth- ers. In cases where libraries are significantly under-represented, these libraries will need to be resequenced, costing time and money. Over-rep- resentation of libraries can result in generation of more sequence data than required, and the subsequent discarding of sequence reads, wasting sequence capacity.

Figure 2 is an example of uneven library pooling resulting in uneven sequence coverage and the need to resequence. With 16 libraries in this pool, each library should theoretically have 6.25% of the sequence reads. However, this is not the case, and some of the libraries, such as libraries 5 and 15, would need to be resequenced.

FIGURE 2: Uneven pooling of libraries yields uneven sequence coverage
Inadequate or uneven pooling of libraries can result in suboptimal data, and even lead to the need for library resequencing, as seen with library #5.

Why do my library fragments need to be adaptor-ligated?

Optimal cluster density enables efficient & accurate quantitation The density of library clusters as they form on the flow cell prior to sequencing is a key factor in the success of a sequencing run. Low concen- tration libraries (Left) fail to make optimal use of the space, while high concentration libraries (Right) lead to densely packed clusters that are difficult to call. Optimal cluster density (Center) makes the best use of flow cell real estate, without over crowding. Representative optical data generated during sequencing depicts variation in cluster densities as shown in the insets. Sequences required downstream of library preparation, such as those for cluster generation and sequencing, must be added to the DNA fragments to be sequenced, and this is the primary goal of library preparation. In PCR-free library preparation workflows, all of the required sequences must be included in the adaptor sequence. In workflows including amplification, some of the sequences, including the sequences required for cluster generation (indicated by P5 and P7 in Figure 3,), can be added during PCR instead.

FIGURE 3: Adaptor ligation workflow
The stepwise addition of the sequences P5 and P7 and the barcode (BC) can be achieved during PCR amplification of the library.

Only fragments that have a P5 sequence at one end and a P7 sequence at the other are capable of participating successfully in cluster generation. Therefore, ideally, only fragments to which both of these sequences have been attached should be counted during a library quantitation step.

However, in addition to the desired fragments with an adaptor at both ends, libraries may also contain fragments that have no adaptors, one adaptor or adaptor-dimers. Fragments with no adaptors or one adaptor ligated will not form clusters. Adaptor-di- mers will efficiently cluster, but contain no DNA of interest (Figure 4).

FIGURE 4: Adaptors are the hallmark of productive molecules
Only library fragments containing both a P5 and a P7 adaptor will result in a flow-cell cluster. Other molecules are insufficient for cluster formation or contain no DNA of interest, so efforts should be made to exclude them from quantitation.


النتائج

Our results show the effectiveness of combining quality scores with sequence alignment by applying LAST within two experiment settings: the first with synthetic data and the second with real data based on cross-species mapping.

Test with simulated DNA reads

In our first experiment, we employ simulated reads since we are able to know exactly where they should map to. We began by sampling 100 000 random 36-bp fragments from human chromosome 1 (hg19, both strands). To simulate real sequence differences, we made random substitutions at a low level (0.2, 0.5, 2 or 5%). These substitutions consisted of 60% transitions and 40% transversions: a realistic proportion (6). To keep this initial test simple, we did not introduce any insertions or deletions. Finally, we assigned 100 000 real quality score strings (those summarized in Figure 1 A) to the simulated reads, and randomly mutated each base according to the corresponding error probability.

We then aligned the reads to chromosome 1, and checked whether or not they mapped back to their original locations. The ‘real’ sequence differences were modeled by using suitable alignment score parameters for each level of divergence ( Table 1 ). We obtained alignments with score 120 (equivalent to 20 error-free matching bases), then calculated mapping probabilities, and kept alignments with mapping probability 0.99. Figure 2 shows the relationship between the number of correctly and incorrectly mapped reads, as the score threshold is varied between 216 (the maximum possible) and 120. As the score threshold approaches 120, falsely mapped reads increase dramatically: this is because the mapping probabilities become less reliable since they fail to account for alignments with scores 119. In all cases, however, mapping accuracy improves (i.e. we obtain more correctly mapped reads for a given number of incorrectly mapped ones) when we model both sequencer errors and ‘real’ substitutions. If we model only sequencer errors, there is the potential to do worse than traditional alignment, where only substitutions are modeled.

Table 1.

Alignment score parameters for DNA with various substitution rates

Substitution Rate (%)Match scoreMismatch cost a تي أ Transition cost b Transversionتي ب
cost b
06& # x0221e4.32809& # x0221e& # x0221e4.32809
0.26264.3339123284.33441
0.56224.3429519244.34425
16194.3583816214.36106
26164.3908213184.39646
56124.5021210144.49125
10694.733877124.65864
15684.882816 c 9 c 4.92305 c

a Applies when there is no transition/transversion bias (i.e. one in three substitutions are transitions).

b For the case where 60% of substitutions are transitions.

c For the case where 45% of substitutions are transitions.

Mapping accuracy for 100 000 simulated 36-bp reads. The reads differ from the genome by a certain rate of ‘real’ substitutions (0.2, 0.5, 1 or 2%) plus sequencer errors. Each line shows the relationship between the number of correctly and incorrectly mapped reads as the alignment score cutoff is varied. Circles indicate a score cutoff of 150. Dotted lines show the accuracy when we model the substitutions but not the sequencer errors. Dashed lines show the accuracy when we model the sequencer errors but not the substitutions. Solid lines show the accuracy when we model both.

To check whether these conclusions hold for a different read length and quality score distribution, we repeated the test using simulated reads of size 51 ( Figure 3 ). The main conclusion still applies: mapping accuracy is improved by modeling both sequencer errors and substitutions. This time, however, traditional alignment performs worse relative to modeling sequencer errors only. The reason, presumably, is that the error probabilities used here are higher on average than those used for the 36-bp reads ( Figure 1 ): so it becomes more important to model sequencing errors.

Mapping accuracy for 100 000 simulated 51-bp reads. See legend of Figure 2 . Circles indicate a score cutoff of 180.

It might be argued that, since we used a particular mapping algorithm (with adaptive seeds), the conclusions may not apply to other mapping techniques. To address this concern, we repeated the experiment using LAST in a different mode, where it guarantees to find all alignments with up to two mismatches (and score 120). (Many alignments with more than two mismatches are also returned in this mode.) This resembles several popular mapping methods. The main conclusions are unchanged: mapping accuracy is improved by modeling both sequencer errors and substitutions, and in some cases modeling only sequencer errors is less accurate than traditional alignment ( Figure 4 ).

Mapping accuracy for 100 000 simulated 36-bp reads using a mapping procedure that guarantees to find all matches with up to two substitutions. This is identical to Figure 2 , except that a different mapping algorithm was used here.

The mapping algorithm does make a difference, though ( Figures 2 and ​ and4). 4). The default adaptive seed method gives only a few hundred false mappings for 60 000� 000 correctly mapped reads, but the two-mismatch guarantee method gives yet fewer false mappings – only a handful – for 50 000� 000 correctly mapped reads. On the other hand, it ultimately gets fewer correctly mapped reads. In our simulation, all of the reads actually come from the reference sequence, and the two-mismatch guarantee method will never miss the correct alignment if the read has at most two differences: this is why there are so few false mappings. Real data is less clean than this, and we would expect more false mappings (see below).

In a further test, we mapped the simulated reads using a simple match/mismatch scoring matrix while also modeling the sequencer errors. This means that we accurately modeled the level of divergence, but ignored the difference between transitions and transversions. This approach works almost, but not quite as well as when we model transitions and transversions (Supplementary Figure S2). This is worth knowing, because match/mismatch scoring schemes are simpler to implement and slightly faster than general score matrices (Supplementary Data).

Test by xeno-mapping real DNA reads

We wished to test our approach with real (not simulated) reads, but we need a case where we can at least estimate whether the mappings are correct. To accomplish this, we mapped reads of D. melanogaster DNA (those in Figure 1 A) to the genome of D. simulans, a closely related organism. This cross-species mapping exemplifies xeno-mapping and mapping to highly polymorphic genomes.

To estimate correctness, we first mapped the reads to the D. melanogaster genome, which can presumably be done much more accurately, and then used the D. melanogaster / D. simulans genome alignment from the UCSC database to cross-reference the mappings. The genome alignment no doubt has errors, but it should be much more accurate than short-read mapping because it can leverage the context provided by long sequences.

In order to construct a suitable alignment scoring scheme, we examined the divergence between D. melanogaster و D. simulans. In the UCSC ‘net’ alignments, 15% of aligned bases are mismatches, and 45% of these are transitions. There is about one gap per 101 aligned bases, and the average gap size is 6.67. These statistics suffice to construct a scoring scheme ( Table 1 , Supplementary Data).

In this test, mapping accuracy was greatly improved by modeling real sequence differences in addition to sequencing errors ( Figure 4 ). At a score cutoff of 150, we get 35 667 correctly mapped reads (66% of the 53 748 that could be mapped confidently to D. melanogaster) and 197 falsely mapped reads. If we model sequencing errors only, we get 26 569 correctly mapped reads (49%) and 194 falsely mapped reads.

If we model real sequence differences without gaps, the accuracy is only slightly lower than when we do allow gaps ( Figure 5 ). So it is not important to model gaps for this data set. Gaps are likely to be more important for longer reads, since a longer read is more likely to cross a gap, and it is also more likely that the alignment can be extended across the gap.

Estimated mapping accuracy for 100 000 real 36-bp reads from D. melanogaster, mapped to the D. simulans الجينوم. Circles indicate a score cutoff of 150. The dotted line shows the mapping accuracy when we model the sequencer errors but not the real differences. The solid line shows the accuracy when we model both. The dashed red line shows the accuracy when we model both but forbid insertions and deletions. Correctness was estimated by mapping the reads to the D. melanogaster genome (modeling sequencer errors only), and using the UCSC D. melanogaster / D. simulans pairwise genome alignment to cross-reference the mappings.

For completeness, we also tried mapping the reads to either or both ذبابة الفاكهة genomes in two-mismatch guarantee mode (Supplementary Figure S3). All combinations support the main conclusion that mapping accuracy increases significantly when we model real sequence differences in addition to sequencing errors. When we map to D. simulans in two-mismatch guarantee mode, the slight benefit of modeling gaps disappears, perhaps because this mode requires finding large (26 bp) gapless matches (see ‘Materials and Methods’ section). As expected, two-mismatch guarantee mode does not reduce false mappings as dramatically as it did for simulated data. Finally, two-mismatch guarantee mode gives fewer correctly mapped reads (as it did for simulated reads), perhaps because it requires seeds with 18 matches (see ‘Materials and Methods’ section), making it less sensitive in general than adaptive seeds.


Mapping qualities

Current high throughput sequencers produces reads that are short for example the HiSeq2000 produces millions of reads that are 50 and 100 bp long. To align such short reads with high speed and accuracy, many short read alignment programs have been developed, such as BWA. The major limitation is the length of the sequenced reads because many eukaryotic genomes are repetitive and therefore it is difficult to accurately map these reads. Because of this, alignment programs have mapping qualities for each read that is mapped to the reference genome. A mapping quality is basically the probability that a read is aligned in the wrong place (i.e. phred-scaled posterior probability that the mapping position of this read is incorrect). The probability is calculated as:

where q is the quality. For example a mapping quality of 40 = 10 to the power of -4, which is 0.0001, which means there is a 0.01 percent chance that the read is aligned incorrectly.

Base calling errors with respect to mapping qualities

Sequencers make base calling mistakes and this complicates matters. To illustrate how this affects the mapping qualities using BWA, I will use an example I came across in SEQanswers. First let’s examine mapping qualities when a read maps to a specific region without suboptimal hits:

Mapping the read to our reference, BWA returns a mapping quality of 37 (which is actually the highest mapping quality BWA returns).

Next let’s create an example with suboptimal hits. Below is a reference that contains five identical stretches of 28 mers and one 28 mer with a single mismatch (in red) compared to the other five:

>ref2
ACGTACGTACGTACGTA C GTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG

Let’s map a read from the single mismatch stretch to this reference:

The mapping quality of the read in the second example is 16, which has a probability of $ 10^ <-16/10>= 0.025119 $ of mapping to the wrong place. Even though the read maps uniquely in the reference, its mapping quality is 16 and not 37. The BWA specific tags in the SAM file provides some nice additional information:

XT Type: Unique/Repeat/N/Mate-sw
X0 Number of best hits
X1 Number of suboptimal hits found by BWA

From the BWA tag information we can quickly deduce whether a read is aligned uniquely in this case the XT:A:U indicates that it was aligned uniquely. In addition, the X1:i:5 tag indicates that there were 5 suboptimal hits.

Mapping qualities when considering base calling errors

To model base calling errors we can use the Binomial distribution if I expect there to be 1 base calling error in 100 bps, I can calculate the probability of an error for a read of 25 nt as such using R

If we expect 1 base calling error in 100 bps, the probability of making two base calling errors in 25 bps is quite low. Using the formula from the SEQanswers post that calculates the posterior probability that the best alignment is actually correct:

In reality base calling is much more accurate than 1 error in 100 bases, which is a Phred quality score of 20. If we changed the base calling error rate to 1 in 1000 (Phred score of 30):

then the posterior probability that the best alignment is correct improves to 0.88879. Using a base calling error rate of 1 in 10000 (Phred score of 40):

improves the probability to 0.9876531, which is a

0.012 probability that the alignment is incorrect, which is around the same ball park to the BWA mapping quality of 16, which is a 0.025 probability that the alignment is incorrect.

Does BWA make use of base calling qualities?

When I included base calling qualities to the read

I still get the same mapping quality of 16 with BWA, indicating that mapping qualities are not used by BWA:

tag 0 artificial 1 16 25M * 0 0 ACGTACGTACGTACGTACGTACGTA . XT:A:U NM:i:0 X0:i:1 X1:i:5 XM:i:0 XO:i:0 XG:i:0 MD:Z:25

This was confirmed when I examined the BWA manual, which mentioned that “Base quality is NOT considered in evaluating hits.”


/>
This work is licensed under a Creative Commons
Attribution 4.0 International License.


Discussion and Conclusion

Although we only applied our pipeline to RNA-seq short reads in this experiment, it is also applicable to other quantitative high-throughput sequence analysis tasks, such as DNA-seq, Chip-seq, DNase-seq, Bis-seq, etc. For example, studies of allele-specific copy number variations can leverage our pipeline for DNA-seq data. The resulting read-origin annotations can be used to estimate the number of DNA copies in different parental haplotypes in later analysis steps.

Although we chose to use a diallel experiment to evaluate our new pipeline in the ‘methods and result’ sections, it is equally applicable to other multi-parental crosses. For example, our multi-alignment pipeline can be directly applied to recombinant inbred lines (RILs) [22] and backcrosses. For a multi-parental cross with ن distinct inbred founders, we would generate ن pseudogenomes and perform ن separate alignments. These alignments can then be merged using ن BAM files. In this scenario, each mapping that is saved to the output will have an ن-bit flag set indicating which files the read was found in. This allows for cases where a mapping’s origin is shared/ambiguous between multiple founders. The latest version of Suspenders allows for a variable number of input alignments during the merging process.

Furthermore, we can incorporate additional filters into the pipeline to better determine the origin of mappings. In our experiment, we only used the Unique and Quality filters as informative filters. This resulted in 𢏅% of the mapped reads being handled by the Random filter. Adding an additional filter before the Random filter will help to reduce the amount of random choices made in the final output. One possible filter is a Pileup filter based on choosing among otherwise equal mappings the single mapping that has the most surrounding mappings supporting it. To do this, we first find all mapping sets that can be filtered by the Unique or Quality filters and use their chosen mappings to compute the read coverage at each base in the reference genome. Then, any mapping sets that could not be resolved using Unique or Quality would compare the pileup coverage of each potential mapping in the set and choose the mapping with the highest coverage. This will be particularly useful for reducing the number of reads that map to pseudogenes in RNA-seq. In cases where the pileups are not significantly different, more computation or simply using the Random filter may be necessary. Suspenders currently has a preliminary version of this filter included in the software package.

To summarize, we propose a new multi-alignment pipeline, which is generic enough to handle reads of various types of organisms from different high-throughput sequencing techniques. We demonstrated its effectiveness on RNA-seq data from a diallel cross and compared our pipeline with a single-reference pipeline. It is shown that our pipeline outperforms the traditional single-reference-based alignment approaches: not only are more reads aligned by our pipeline, but a higher percentage of them are assigned a correct origin.

The two key components of our pipeline, Lapels and Suspenders, are Python scripts that can be downloaded at https://code.google.com/p/lapels/ and https://code.google.com/p/suspenders/.


شاهد الفيديو: Plaatsingsinstructies deurkast met schuifkassement (أغسطس 2022).