معلومة

في أبحاث الجينوم ، ما هي المشكلة في رسم الخرائط والتي قد تكون ناجمة عن قراءات قصيرة جدًا؟

في أبحاث الجينوم ، ما هي المشكلة في رسم الخرائط والتي قد تكون ناجمة عن قراءات قصيرة جدًا؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

في السيناريو التالي: تم إعطاؤك قراءات قصيرة من الحمض النووي الريبي للنبات تم الحصول عليها من آلة التسلسل من الجيل التالي (أجزاء من 20 إلى 30 نيوكليوتيد في الطول). أنت تحاول إعادة تعيينهم إلى الجينوم ، لكن نسبة كبيرة منهم لا تتوافق.

السؤال هو: إعطاء بعض التفسيرات الواضحة لماذا يمكن أن تفشل محاذاة التسلسلات القصيرة ، بصرف النظر عن التلوث المحتمل أو الصعوبات التقنية أثناء تحضير الحمض النووي الريبي.

سأجيب عليه لأن القراءات قصيرة وبسبب الإنترونات (لأنها RNA)

سيناريو آخر: هناك بعض المؤشرات على أن التسلسلات الإشكالية تأتي من فيروس RNA نباتي غير معهود. ماذا ستفعل بعد ذلك؟ ما هي التحذيرات الخاصة بقراءات التسلسل القصير؟

تلقيت الأسئلة أعلاه ، أنا طالب في علوم الكمبيوتر وأقوم بالمعلوماتية الحيوية ، وأي عالم أحياء يمكن أن يجيب عليها سيكون موضع تقدير كبير


لكوني خبيرًا في المعلومات الحيوية أيضًا ، فأنا لست حقًا ما طلبته ، لكني أعمل مع علم الوراثة النباتية ، لذا سأحاول الإجابة على أي حال.

ما ترسمه هو RNA. لذا ، كما اكتشفت بالفعل ، أحداث الربط سيكون مشكلة في التخطيط الشامل للقراءات. ومع ذلك ، هناك أدوات لإدارة ذلك ، لذلك لنفترض أنك استخدمت واحدة منها وما زلت لا تزال الكثير من قراءاتك غير مخططة. لوضع نقطة جيدة في WYSIWIG: حدث آخر يمكن أن يفسد محاذاةك هو تحرير RNA، على الرغم من أن هذا ليس من المرجح أن يتسبب في عدم محاذاة نسبة عالية من القراءات على الإطلاق.

قد يكون بعض تقويم الأسنان منقي خارج طلبات البحث "القصيرة جدًا" ، لذا تأكد من عدم استخدام أحدها.

ثم ، هل لديك المجهزة قراءاتك؟ إذا لم تقم بذلك ، فقد يكون هناك تسلسلات للمحول متبقية. أو قد تكون القراءات ذات جودة رديئة جدًا ، وبالتالي فهي أيضًا تتماشى مع الجودة الرديئة ، وبالتالي يمكن اعتبارها غير متوافقة.

ثم تحقق مما تقوم بالمحاذاة إليه. العديد من الجينومات النباتية المنشورة هي أيضًا من جودة طفيفة، بما في ذلك الكثير من القواعد غير المخصصة. لذلك ، يمكن أن تكون هناك نسب كبيرة من الجينوم المرجعي الخاص بك التي يتم حسابها في طول الجينوم ، ولكنها ليست سوى Ns ولن يتم محاذاة أي شيء هناك.

أخيرًا وليس آخرًا ، قد يكون تفكيرك بشأن الفيروس صحيحًا أيضًا. اعتمادًا على التجربة ، قد يكون هناك الرنا الممرض في عينتك ، لذا تحقق من قاعدة بيانات مناسبة.

إذا كانت المشكلة هي أن القراءات "قصيرة جدًا" لأي سبب من الأسباب ، فحاول القيام بذلك تجميع النسخ قبل المقارنة بالمرجع الخاص بك.


لا أعتقد أنه من الممكن الإجابة على الجزء الأول دون مزيد من المعلومات. على وجه التحديد ، هل تستخدم مخططًا مدركًا للصق ، مثل Tophat؟ هل تستخدم gtf محددًا مسبقًا مع إحداثيات exon المفترضة؟ إذا كان الأمر كذلك ، فهل هو نبات مدروس جيدًا ، مثل نبات الأرابيدوبسيس ، أو شيء جديد تمامًا؟ إجابتك ليست صحيحة ، ستتماشى الإنترونات مع الجينوم الجيد. لا يعرف التقويم أو يهتم بأن هذا التسلسل لا ينبغي أن يكون في العينة ، فلن يؤثر ذلك على التعيين. أنا شخصياً لا أعتقد أن هناك إجابة جيدة على السؤال. من غير المحتمل أن تفشل القراءات القصيرة أكثر من القراءات الطويلة. هم أكثر عرضة لرسم خريطة إلى المكان الخطأ ، ولكن هذا ليس الفشل في الخريطة.


النظر في جيناتي: ماذا يمكنهم أن يخبروني عن صحتي العقلية؟

الاضطرابات النفسية هي حالات صحية تؤثر على طريقة تفكير الشخص وشعوره وتصرفاته. يمكن أن تؤثر هذه الاضطرابات على حياة الشخص بطرق مهمة ، بما في ذلك كيفية تعامله مع أحداث الحياة ، وكسب لقمة العيش ، والتواصل مع الآخرين.

"لماذا حدث هذا؟" هذا سؤال شائع يواجهه المرضى وعائلاتهم بعد نوبة ذهانية أو محاولة انتحار أو تشخيص اضطراب عقلي.

وجدت الأبحاث التي أجراها ومولها المعهد الوطني للصحة العقلية (NIMH) أن العديد من الاضطرابات النفسية ناتجة عن مجموعة من العوامل البيولوجية والبيئية والنفسية والوراثية. في الواقع ، وجدت مجموعة متزايدة من الأبحاث أن بعض الجينات والاختلافات الجينية مرتبطة بالاضطرابات العقلية. إذن ، ما هي أفضل طريقة "للنظر في جيناتك" وتحديد المخاطر الشخصية؟


ما هي أعراض الودانة؟

يعاني الأشخاص المصابون بالودانة من نمو غير طبيعي في العظام يتسبب في الأعراض السريرية التالية: قصر القامة وذراعان وساقان قصيرتان بشكل غير متناسب ، وأصابع قصيرة ، ورأس كبير (ضخامة الرأس) وميزات وجه محددة بجبهة بارزة (تضخم أمامي) ونقص تنسج في منتصف الوجه .

عادة ما يكون الذكاء وفترة الحياة لدى الأفراد المصابين بالودانة أمرًا طبيعيًا.

عادةً ما يعاني الأطفال الذين يولدون مصابين بالودانة من ضعف العضلات (نقص التوتر). بسبب نقص التوتر ، قد يكون هناك تأخير في المشي والمهارات الحركية الأخرى. يزيد ضغط الحبل الشوكي و / أو انسداد مجرى الهواء العلوي من خطر الوفاة عند الرضع.

يعاني الأشخاص المصابون بالودانة عادةً من مشاكل في التنفس يتوقف فيها التنفس أو يتباطأ لفترات قصيرة (انقطاع النفس). تشمل المشاكل الصحية الأخرى السمنة والتهابات الأذن المتكررة. قد يصاب البالغون المصابون بالودانة بتأثير واضح ودائم في أسفل الظهر (قعس) وأرجل منحنية. يمكن أن تسبب مشاكل أسفل الظهر آلام الظهر مما يؤدي إلى صعوبة في المشي.

يعاني الأشخاص المصابون بالودانة من نمو غير طبيعي في العظام يتسبب في الأعراض السريرية التالية: قصر القامة وذراعان وساقان قصيرتان بشكل غير متناسب ، وأصابع قصيرة ، ورأس كبير (ضخامة الرأس) وميزات وجه محددة بجبهة بارزة (تضخم أمامي) ونقص تنسج في منتصف الوجه .

عادة ما يكون الذكاء وفترة الحياة لدى الأفراد المصابين بالودانة أمرًا طبيعيًا.

عادةً ما يعاني الأطفال الذين يولدون مصابين بالودانة من ضعف العضلات (نقص التوتر). بسبب نقص التوتر ، قد يكون هناك تأخير في المشي والمهارات الحركية الأخرى. يزيد ضغط الحبل الشوكي و / أو انسداد مجرى الهواء العلوي من خطر الوفاة عند الرضع.

يعاني الأشخاص المصابون بالودانة عادةً من مشاكل في التنفس يتوقف فيها التنفس أو يتباطأ لفترات قصيرة (انقطاع النفس). تشمل المشاكل الصحية الأخرى السمنة والتهابات الأذن المتكررة. قد يصاب البالغون المصابون بالودانة بتأثير واضح ودائم في أسفل الظهر (قعس) وأرجل منحنية. يمكن أن تسبب مشاكل أسفل الظهر آلام الظهر مما يؤدي إلى صعوبة في المشي.


خيارات الوصول

احصل على الوصول الكامل إلى دفتر اليومية لمدة عام واحد

جميع الأسعار أسعار صافي.
سيتم إضافة ضريبة القيمة المضافة في وقت لاحق عند الخروج.
سيتم الانتهاء من حساب الضريبة أثناء الخروج.

احصل على وصول محدود أو كامل للمقالات على ReadCube.

جميع الأسعار أسعار صافي.


ما هو تسلسل الحمض النووي؟

التسلسل يعني تحديد الترتيب الدقيق لأزواج القواعد في جزء من الحمض النووي. يتراوح حجم الكروموسومات البشرية من حوالي 50،000،000 إلى 300،000،000 زوج قاعدي. نظرًا لوجود القواعد على شكل أزواج ، وتحدد هوية إحدى القواعد في الزوج العضو الآخر في الزوج ، فلا يتعين على العلماء الإبلاغ عن كلا قاعدتي الزوج.

كانت الطريقة الأساسية التي استخدمها HGP لإنتاج النسخة النهائية من الكود الجيني البشري هي التسلسل المستند إلى الخريطة ، أو القائم على BAC. BAC هو اختصار لـ "الكروموسوم الاصطناعي البكتيري". ينقسم الحمض النووي البشري إلى أجزاء كبيرة نسبيًا ولكن لا يزال حجمها قابلاً للإدارة (بين 150.000 و 200000 زوج قاعدي). يتم استنساخ الشظايا في البكتيريا ، التي تخزن وتنسخ الحمض النووي البشري بحيث يمكن تحضيرها بكميات كبيرة بما يكفي للتسلسل. إذا تم اختياره بعناية لتقليل التداخل ، فإنه يتطلب حوالي 20000 نسخة مختلفة من BAC لاحتواء 3 مليارات زوج من قواعد الجينوم البشري. تسمى مجموعة استنساخ BAC التي تحتوي على الجينوم البشري بأكمله "مكتبة BAC."

في الطريقة القائمة على BAC ، يتم "تعيين" كل استنساخ BAC لتحديد مصدر الحمض النووي في استنساخ BAC في الجينوم البشري. يضمن استخدام هذا النهج أن يعرف العلماء الموقع الدقيق لأحرف الحمض النووي التي يتم تسلسلها من كل استنساخ وعلاقتها المكانية بتسلسل الحمض النووي البشري في استنساخ BAC الأخرى.

للتسلسل ، يتم تقطيع كل استنساخ من BAC إلى أجزاء أصغر يبلغ طولها حوالي 2000 قاعدة. تسمى هذه القطع بـ "النسخ الفرعية". يتم إجراء "تفاعل متسلسل" على هذه الحيوانات الفرعية. يتم بعد ذلك تحميل نواتج تفاعل التسلسل في آلة التسلسل (جهاز التسلسل). يولد جهاز التسلسل حوالي 500 إلى 800 زوج أساسي من A و T و C و G من كل تفاعل تسلسلي ، بحيث يتم ترتيب تسلسل كل قاعدة حوالي 10 مرات. يقوم الكمبيوتر بعد ذلك بتجميع هذه التسلسلات القصيرة في امتدادات متجاورة من التسلسل الذي يمثل الحمض النووي البشري في استنساخ BAC.

التسلسل يعني تحديد الترتيب الدقيق لأزواج القواعد في جزء من الحمض النووي. يتراوح حجم الكروموسومات البشرية من حوالي 50،000،000 إلى 300،000،000 زوج قاعدي. نظرًا لوجود القواعد على شكل أزواج ، وتحدد هوية إحدى القواعد في الزوج العضو الآخر في الزوج ، فلا يتعين على العلماء الإبلاغ عن كلا قاعدتي الزوج.

كانت الطريقة الأساسية التي استخدمها HGP لإنتاج النسخة النهائية من الكود الجيني البشري هي التسلسل المستند إلى الخريطة ، أو القائم على BAC. BAC هو اختصار لـ "الكروموسوم الاصطناعي البكتيري". ينقسم الحمض النووي البشري إلى أجزاء كبيرة نسبيًا ولكن لا يزال حجمها قابلاً للإدارة (بين 150.000 و 200000 زوج قاعدي). يتم استنساخ الشظايا في البكتيريا ، التي تخزن وتنسخ الحمض النووي البشري بحيث يمكن تحضيرها بكميات كبيرة بما يكفي للتسلسل. إذا تم اختياره بعناية لتقليل التداخل ، فإنه يتطلب حوالي 20000 نسخة مختلفة من BAC لاحتواء 3 مليارات زوج من قواعد الجينوم البشري. تسمى مجموعة استنساخ BAC التي تحتوي على الجينوم البشري بأكمله "مكتبة BAC."

في الطريقة القائمة على BAC ، يتم "تعيين" كل استنساخ BAC لتحديد مصدر الحمض النووي في استنساخ BAC في الجينوم البشري. يضمن استخدام هذا النهج أن يعرف العلماء الموقع الدقيق لأحرف الحمض النووي التي يتم تسلسلها من كل استنساخ وعلاقتها المكانية بتسلسل الحمض النووي البشري في استنساخ BAC الأخرى.

للتسلسل ، يتم تقطيع كل استنساخ من BAC إلى أجزاء أصغر يبلغ طولها حوالي 2000 قاعدة. تسمى هذه القطع ب "النسخ الفرعية". يتم إجراء "تفاعل متسلسل" على هذه الحيوانات الفرعية. يتم بعد ذلك تحميل نواتج تفاعل التسلسل في آلة التسلسل (جهاز التسلسل). يولد جهاز التسلسل حوالي 500 إلى 800 زوج أساسي من A و T و C و G من كل تفاعل تسلسلي ، بحيث يتم ترتيب تسلسل كل قاعدة حوالي 10 مرات. يقوم الكمبيوتر بعد ذلك بتجميع هذه التسلسلات القصيرة في امتدادات متجاورة من التسلسل الذي يمثل الحمض النووي البشري في استنساخ BAC.


3. وصف المعيار

3.1. مجموعات البيانات

يتم تقييم أدوات رسم الخرائط من خلال تجربتين متشابهتين. يتم إجراء التجربة الأولى (المسماة في ما يلي) على الجينوم البشري (25 كروموسومًا مقابل 2.7 جيجا بايت). التجربة الثانية (المسماة) أجريت على جينومات بكتيرية (904 تسلسل جينومي مقابل 1.7 جيجا بايت).

في التجربة التي أجريت على الجينوم البشري () ، تم أخذ الجينوم المرجعي من التجميع 37.1 الذي صنعه NCBI. لقد بنينا مجموعتين من القراءات ، كلها بطول 40. تتكون المجموعة الأولى من القراءات () من 10 ملايين قراءة مأخوذة بشكل موحد من الجينوم المرجعي. يتم الرسم باستخدام wgsim. 1 تحتوي الكروموسومات البشرية في وقت ما على نسبة كبيرة ، تصل إلى 30٪ ، من الحرف ن. قراءة الخرائط ذات المسافات الطويلة من N هي معلومات قليلة لتقييم كفاءة أدوات رسم الخرائط لأن هذه القراءات يجب أن تحدد في مواقع عديدة. لذلك قررنا مسبقًا إزالة الأشواط التي تزيد عن 10 نانوثانية من الجينوم المرجعي. 2 غالبية القراءات (8877107) من تحدث مرة واحدة فقط ، 3 ولكن يمكن تكرار بعض القراءات عدة مرات على طول الجينوم المرجعي كما هو موضح في الشكل 8. بالنسبة للقراءات التي تحدث أكثر من مرة ، فإن متوسط ​​عدد مرات الحدوث هو 722.81 مع معيار انحراف 2424.86. علاوة على ذلك ، تحدث القراءة الأكثر شيوعًا 53162 مرة. تم إنشاء المجموعة الثانية من القراءات () من خلال إضافة ثلاث حالات عدم تطابق بالضبط لكل قراءة. لذلك يحتوي أيضًا على 10 ملايين قراءة. نحن ندرك أنه من غير المرجح أن تنتج أجهزة التسلسل الحديثة قراءات بمثل هذا معدل الخطأ ، ولكن الأساس المنطقي لمجموعة البيانات هذه هو أن العديد من المشاريع تنتج الآن بيانات إعادة التسلسل و metagenomics ، والتي قد تتباعد بشكل كبير عن الجينومات المتسلسلة بالفعل. يتم رسم مواضع عدم التطابق الثلاثة بشكل موحد ضمن 40 موضعًا. 4 يتحول النوكليوتيدات A أو C أو G أو T إلى أي من النوكليوتيدات الثلاثة الأخرى باحتمال متساوٍ 1/3 ، بينما يتحول N إلى A أو C أو G أو T باحتمال 1/4. من بين 10 ملايين قراءة من و 49 قراءة فقط تحتوي على بعض Ns ، يرد عدد N لكل قراءة في الجدول 1.

تين. 8. الرسم البياني للوغاريتم لعدد تكرارات 1،122،893 (على التوالي 2،620،394) يقرأ من (على التوالي) التي تحدث أكثر من مرة في الجينوم المرجعي (اليسار) (Resp. (حق)).

الجدول 1. عدد القراءات مع عدد معين من Ns ، من كل مجموعة من مجموعات البيانات الأربعة ، ،

في التجربة الثانية () ، يتكون الجينوم المرجعي من 904 جينوم بكتيري تم العثور عليه في إصدار مراجعات الجينوم 111.0 (Kersey et al. ، 2005). قمنا أيضًا ببناء مجموعتين من قراءات 40 بت في الثانية. تتكون المجموعة الأولى من القراءات () من 10 ملايين قراءة مأخوذة بشكل موحد من. 5 هناك 7،379،606 قراءة مع حدوث فريد و 2620،394 قراءة تحدث أكثر من مرة (متوسط ​​8.82 و 39.03 SD). القراءة الأكثر شيوعًا من تحدث 1685 مرة. تم إنشاء المجموعة الثانية من القراءات () من خلال إضافة ثلاث حالات عدم تطابق بشكل موحد في كل قراءة كما هو موضح. 231 قراءة من و 219 قراءة من تحتوي على بعض Ns (الجدول 1).

3.2 أدوات رسم الخرائط

قمنا بتقييم أداء أدوات رسم الخرائط التسعة التالية: BWA_v0.5.8 و Novoalign_v2.06.09 و Bowtie_v0.12.7 و SOAP_v2.20 و BFAST_v0.6.5a و SSAHA2_v2.5.2 و MPscan و GASSST_v1.28 و PerM_v0.3.9.

يجمع الجدول 2 الخصائص العالمية للأدوات ، أي نوع الخوارزميات التي تستند إليها ، وتنسيق إخراجها ، وقدرتها على السماح بعدم التطابق و / أو indels في المحاذاة ، وإذا كان بإمكانها استخدام خيوط متعددة.

الجدول 2. الخصائص العالمية لأدوات رسم الخرائط

SAM ، خريطة محاذاة التسلسل.

يتم الآن تقديم معلومات إضافية بشكل منفصل لكل أداة ، ولا سيما حول طريقة إجراء المقارنات. لكل أداة ، هدفنا هو بالفعل استرداد جميع المحاذاة (ما يسمى بالضربات التالية) ، إما مع عدم تطابق أو مع عدم تطابق 3 على الأكثر ، من مجموعات البيانات المقروءة (انظر القسم 3.1).

3.2.1. BWA

يتكون تشغيل BWA من استخدام ثلاثة أوامر متتالية: الأول (فهرس bwa) يفهرس الجينوم المرجعي ، والثاني (bwa aln) يعثر على إحداثيات مرات قراءة كل فرد في مصفوفة اللاحقة ، والأخير (bwa samse) ) يحول إحداثيات صفيف اللاحقة للإشارة إلى إحداثيات الجينوم وإنشاء المحاذاة بتنسيق SAM. بشكل افتراضي ، يتم إجراء بحث غير شامل في الخطوة الثانية لتقليل وقت الحساب ، ثم استخدمنا الخيار −N لتعطيل هذا السلوك والبحث عن جميع النتائج المحتملة. استخدام هذا الخيار أو لا يكون له تأثير كبير على النتائج عندما يُسمح بعدم التطابق ، كما سنرى في القسم التالي. من الممكن تعيين الحد الأقصى لعدد حالات عدم التطابق لكل نتيجة (الخيار −n في الخطوة الثانية) وأيضًا لكل أولية (الخيار −k) استخدمنا نفس القيمة لكل من المعلمتين. علاوة على ذلك ، يمكن للمرء تحديد الحد الأقصى لعدد مرات الدخول إلى الإخراج (الخيار −n في الخطوة الثالثة). إذا كانت القراءة تحتوي على عدد أكبر من مرات الدخول في المرجع ، فسيتم اختيار النتائج الناتجة عشوائيًا. الطريقة الوحيدة للحصول على جميع النتائج لكل قراءة هي تعيين الحد الأقصى لعدد مرات الدخول للإخراج إلى قيمة أكبر من الحد الأقصى لعدد مرات حدوث القراءات في كل مجموعة قراءة. ثم أخذنا الحدود 54000 لـ و 6 و 2000 لـ و 7 BWA بشكل عشوائي يغير Ns في الجينوم المرجعي إلى النيوكليوتيدات العادية.

3.2.2. نوفوالين

يتكون تشغيل Novoalign من تشغيل اثنين من الأوامر المتتالية: الأول (novoindex) يفهرس الجينوم المرجعي والثاني (novoalign) يقوم بمحاذاة القراءات مع المرجع المفهرس. لا تسمح Novoalign (على الأقل في نسختها الأكاديمية) للمستخدم بتعيين الحد الأقصى (أو الدقيق) لعدد عدم التطابق بين الجينوم المقروء والمرجع. قمنا بعد ذلك بمعالجة النتائج لاحقًا لاسترداد المطابقات التامة (و) أو المطابقات مع ثلاثة حالات عدم تطابق على الأكثر (و). للقراءات ذات النتائج المتعددة ، من الممكن الإبلاغ عن جميع النتائج (الخيار −r A) أو على الأكثر عدد ثابت من النتائج المختارة عشوائيًا.

3.2.3. ربطة القوس

يتكون تشغيل Bowtie من استخدام أمرين متتاليين ، إنشاء ربطة القوس الذي يفهرس الجينوم المرجعي وربطة العنق التي تأخذ فهرسًا ومجموعة من القراءات كمدخلات ومخرجات قائمة من المحاذاة. يسمح Bowtie للمستخدم بتعيين الحد الأقصى لعدد حالات عدم التطابق لكل نتيجة (الخيار −v). بشكل افتراضي ، يقوم Bowtie بإرجاع نتيجة واحدة فقط لكل قراءة إذا أراد المرء استرداد المزيد من النتائج ، أو كلها ، لكل قراءة ، ويحتاج المرء إلى تحديد الحد الأقصى لعدد النتائج للإبلاغ عنها (الخيار −k). أما بالنسبة إلى النفاذ اللاسلكي عريض النطاق (BWA) ، فينبغي ضبط هذا العدد الأقصى على الحد الأقصى لعدد تكرارات مجموعة القراءة 8 لاسترداد جميع مرات الدخول. تعتبر عمليات المحاذاة التي تتضمن حرفًا غامضًا واحدًا أو أكثر ، مثل Ns ، في المرجع غير صالحة بواسطة Bowtie ، في حين أنها تمثل حالات عدم التطابق إذا كانت تنتمي إلى القراءات.

3.2.4. SOAP2

يتكون تشغيل SOAP2 من استخدام أمرين متتاليين: الأول (2bwt-builder) ينشئ فهرس Burrows-Wheeler للجينوم المرجعي ، والثاني (الصابون) ينفذ المحاذاة. يسمح SOAP2 للمستخدم بتعيين الحد الأقصى لعدد حالات عدم التطابق لكل نتيجة (الخيار −v) ولكن هذا العدد الأقصى يقتصر على 2. مخرجات SOAP2 بشكل منهجي لجميع الزيارات (لا يُسمح بأي قيود). يمكن الحصول على القراءات غير المعينة في ملف FASTA. يبدو أن SOAP2 يحل محل جميع Ns في القراءات بواسطة G.

3.2.5. سريع

يتطلب تشغيل BFAST خمس خطوات: (1) تتم إعادة كتابة الجينوم المرجعي أولاً بتنسيق خاص (bfast fasta2brg) ، (2) يقوم فهرس bfast بفهرسة الجينوم المرجعي باستخدام البذور المتباعدة التي حددها المستخدم (يجب إجراء هذه الخطوة باستخدام عدة البذور ، مما أدى بعد ذلك إلى العديد من الفهارس ، استخدمنا البذور العشر المقترحة في Homer et al. ، [2009]) ، (3) ثم يأخذ أمر bfast match مجموعة من القراءات ويبحث في مجموعة من الفهارس للعثور على مواقع محاذاة المرشح (أو CALs) لكل قراءة ، (4) يأخذ الأمر bfast localalign تراخيص وصول العملاء لكل قراءة وينفذ محاذاة محلية للمرجع ، و (5) أخيرًا يتم إنشاء ملف الإخراج (bfast postprocess). بالنسبة إلى Novoalign ، لا يمكن للمستخدم تعيين الحد الأقصى (أو الدقيق) لعدد حالات عدم التطابق ، لذلك قمنا بمعالجة النتائج الناتجة لاحقًا. يمكن لـ BFAST إخراج جميع الزيارات (الخيار أ).

3.2.6. SSAHA2

يتكون تشغيل SSAHA2 من خطوتين: فهرسة الجينوم المرجعي (الأمر ssaha2Build) ورسم خرائط للقراءات (ssaha2). من الممكن تحديد عدد حالات عدم التطابق المسموح بها ، أو بشكل مكافئ النسبة المئوية للهوية (الخيار − الهوية). عدد النتائج المبلغ عنها لكل قراءة محدد بـ 500 زيارة ولا يمكن تغييره. لقد طلبنا تعيين "أفضل" (درجة سميث ووترمان) لكل قراءة (− أفضل 1) ، والذي يبدو مناسبًا لرسم الخرائط بدقة ، ولكن ربما ليس من أجل و (في الواقع استخدمنا أيضًا أفضل 0 في حالة عدم التطابق).

3.2.7. MPscan

لتشغيل MPscan ، يوجد أمر واحد فقط (mpscan) ولكن يجب استخدامه مرتين ، أحدهما للتعيين على الشريط المباشر والثاني للخيط العكسي (الخيارات −rev −ac). غير مسموح بعدم التطابق في المحاذاة ويتم الإبلاغ عن جميع المحاذاة في ملف الإخراج (ليس بتنسيق SAM).

3.2.8. ضحكة

يتم تنفيذ خطوات الفهرسة ورسم الخرائط بإصدار الأمر Gassst. من الممكن تحديد عدد حالات عدم التطابق المسموح بها ، أو ما يعادل النسبة المئوية للهوية (الخيار −p). لاسترداد جميع النتائج بشكل شامل لكل قراءة ، قمنا بتعطيل عملية التصفية المستخدمة افتراضيًا لتقليل وقت الحساب (الخيار −l 0) وقمنا بتعيين الحساسية على قيمتها القصوى (الخيار 5). المحاذاة التي تتضمن أحرفًا غامضة تمثل بالضرورة حالات عدم التطابق. تقارير GASSST عن المحاذاة بتنسيق معين يمكن تحويل ملف الإخراج بتنسيق SAM باستخدام الأمر gassst_to_sam الذي يبدو أنه يستغرق وقتًا طويلاً.

3.2.9. موج الشعر بإستمرار

تتم خطوات الفهرسة والتعيين عن طريق تشغيل الأمر perm. من الممكن تعيين الحد الأقصى لعدد حالات عدم التطابق لكل نتيجة (الخيار −s) وتحديد الحد الأقصى لعدد النتائج التي يتم البحث عنها (الخيار −k). للإبلاغ عن جميع النتائج ، قمنا بتعيين الخيار السابق على أكبر عدد من التكرارات الموجودة في مجموعات القراءة الخاصة بنا (مثل Bowtie و BWA) وقمنا أيضًا بتنشيط الخيار "الكل" −A. أخيرًا ، نظرًا لأن بعض القراءات تحتوي على بعض Ns (الجدول 1) ، فقد استخدمنا الخيار - - includeReadsWN متبوعًا بـ 40 أو 37 أو 10 اعتمادًا على مجموعة القراءة.


المواد والأساليب

التسلسل

تسلسل العصوية الرقيقة تم إجراء الجينوم باستخدام Illumina GA II. الحمض النووي الجيني لـ B. الرقيقة تم استخراجه باستخدام مجموعة DNeasy Blood and Tissue (Qiagen). تم إعداد مكتبات هذا الحمض النووي الجيني وفقًا لبروتوكول الشركة المصنعة (Illumina) (8). تم تجزئة خمسة ميكروغرامات من الحمض النووي الجيني إلى متوسط ​​طول 200 نقطة أساس باستخدام نظام Covaris S2 (Covaris). تم إصلاح الحمض النووي المجزأ باستخدام T4 polynucleotide kinase وجزء Klenow (New England Biolabs) تمت إزالة 3′-end من الحمض النووي الذي تم إصلاحه نهائيًا باستخدام جزء Klenow (New England Biolabs). بعد ذلك ، تم ربط محولات الفهرس PE Oligo Mix (Illumina) بالأجزاء باستخدام Quick T4 DNA Ligase (New England Biolabs). تم إجراء تمديد المحول 5′-end وإثراء المكتبة باستخدام 18 دورة من PCR مع البادئات InPE1.0 و InPE2.0 و PCR index التمهيدي (Illumina). تم إجراء أجيال الكتلة على محطة كتلة Illumina باستخدام مجموعة توليد مجموعة ثنائية النهاية v4.4. تم تنفيذ ستة وسبعين دورة من التسلسل المزدوج للنهاية المزدوجة باستخدام نظام Illumina GA II مع SBS 36-cycle Sequencing Kit v4 ، وفقًا لمواصفات الشركة المصنعة. بعد اكتمال تفاعلات التسلسل ، تم استخدام خط أنابيب تحليل Illumina (CASAVA 1.6.0) لمعالجة بيانات التسلسل الخام. التسلسل المرجعي لرسم الخرائط كان B. الرقيقة شارع. 168 (NC_000964.3). تم إيداع بيانات القراءة (DRX000504) في DRA (أرشيف قراءة تسلسل DDBJ).

تحليل البيانات

أنشأنا برنامجًا جديدًا لرسم خرائط لقراءة Illumina Sequencer (MPSmap) وتصور نتائج التعيين (PSmap). سيظهر وصف مفصل وتقييم للبرنامج في مكان آخر هنا ، نصف طريقتنا بإيجاز. في البداية ، فهرس بسيط لـ ك - أعدت المهرات للتسلسل المرجعي. ثم تمت مقارنة جميع قواعد القراءة مع تلك الخاصة بالمرجع لكل تطابق فهرس للقراءة. تم إجراء هذه المقارنة لجميع مطابقات الفهرس ، وتم تحديد أفضل موضع مطابق لكل قراءة. يتمثل أحد قيود نهج الفهرس في أنه قد لا يتم تحديد بعض مواضع المطابقة المتقاربة في حالة وجود أي حالات عدم تطابق داخل الفهرس. لتقليل هذه المشكلة ، كررنا بحث الفهرس أثناء تغيير موضع الفهرس في تسلسلات القراءة. على سبيل المثال ، كررنا بحث الفهرس ثلاث مرات لتحديد مواضع القراءة بشكل صحيح مع السماح بحدوث عدم تطابق. وبالمثل ، كررنا بحث الفهرس ( ن + 1) مرات أين ن هو عدد حالات عدم التطابق لكل قراءة المسموح بها في البحث. تتم محاذاة كل نتيجة فهرسة على المرجع من أجل البحث عن أفضل موقع ، مما يسمح بعدد محدد من حالات عدم التطابق بدون فجوة. نهج الفهرس سريع ولكنه لا يضمن الحساسية للقراءات الأقصر من ك ( ن + 1) حيث ، ك هو طول الفهرس. لرسم خرائط B. الرقيقة عند السماح بـ 35 حالة عدم تطابق ، قارنا عمليات البحث بأطوال فهرس تبلغ ك = 2 و ك = 10 لتأكيد أن الاختلاف في النتائج صغير (الجدول التكميلي S1). أجرينا أيضًا تعيينًا باستخدام BWA و BFAST باستخدام جهاز لوحي (29) للتصور ، من أجل تأكيد أن خوارزميات التعيين المتعددة تكتشف SSE (البيانات التكميلية S1). يحول برنامج التمثيل البصري (PSmap) نتائج التعيين إلى ملف PostScript. البرامج ، القابلة للتنفيذ على أنظمة Linux (CentOS5.3) و MacOSX (الإصدار 10.6.6) ، متاحة للتنزيل على موقعنا (http://metalmine.naist.jp/maps/).

البيانات العامة

قمنا بتحليل العديد من مجموعات البيانات العامة التي تم تنزيلها من خادم قاعدة بيانات SRA في المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI). أرقام الانضمام لهذه العينات والتسلسلات المرجعية المقابلة هي ERX006616 (NC_02945.3.2) المتفطرة البقريّة AF2122 / 97) و SRX007714 (NC_010079 و NC_012417.1 و NC_010063.1 المكورات العنقودية الذهبية USA300) و ERX002218 (NC_002929.2 البورديتيلة السعال الديكي تهامة الأول).


الملخص

يوفر التسلسل أحادي الجزيء في الوقت الفعلي الذي طورته Pacific BioSciences أطوال قراءة أطول من تقنيات تسلسل الجيل الثاني (SGS) ، مما يجعلها مناسبة تمامًا للمشكلات التي لم يتم حلها في أبحاث الجينوم والنسخ وعلم التخلق. المتاخمة للغاية من جديد التجمعات يمكن أن يؤدي استخدام تسلسل PacBio إلى سد الفجوات في التجميعات المرجعية الحالية وتمييز التباين الهيكلي (SV) في الجينومات الشخصية. من خلال القراءات الأطول ، يمكننا التسلسل عبر المناطق المتكررة الممتدة واكتشاف الطفرات ، والتي يرتبط العديد منها بالأمراض. علاوة على ذلك ، يعد تسلسل نسخ PacBio مفيدًا لتحديد الأشكال الإسوية للجينات ويسهل الاكتشافات الموثوقة للجينات الجديدة والأشكال الإسوية الجديدة للجينات المشروحة ، نظرًا لقدرته على تسلسل النصوص الكاملة أو الأجزاء ذات الأطوال الكبيرة. بالإضافة إلى ذلك ، توفر تقنية التسلسل من PacBio معلومات مفيدة للكشف المباشر عن التعديلات الأساسية ، مثل مثيلة. بالإضافة إلى استخدام تسلسل PacBio وحده ، هناك الكثير التسلسل الهجين تم تطوير استراتيجيات للاستفادة من قراءات قصيرة أكثر دقة بالتزامن مع قراءات PacBio الطويلة. بشكل عام، التسلسل الهجين تكون الاستراتيجيات ميسورة التكلفة وقابلة للتطوير بشكل خاص للمختبرات الصغيرة الحجم من استخدام PacBio Sequencing وحده. أتاح ظهور تسلسل PacBio الكثير من المعلومات التي لا يمكن الحصول عليها عبر SGS وحدها.


مناقشة

تقدم التطورات الحديثة في تقنيات التسلسل الفرصة لإجراء تسلسل الجينوم الكامل للسلالات المختبرية بسرعة وبتكلفة منخفضة. يتيح ذلك الكشف الفعال للاختلافات الجينية بين السلالات على المستوى الجزيئي. علاوة على ذلك ، توفر تقنيات التسلسل الجديدة فرصًا لتطوير تطبيقات جديدة و / أو لتبسيط التجارب المجهدة سابقًا بشكل كبير ، مثل اكتشاف الطفرات النقطية. في هذا التقرير ، استكشفنا بعض المرافق لطرق التسلسل من الجيل التالي لفهم بيولوجيا بكتيريا مدروسة جيدًا & # x02014 B. الرقيقة. لقد أثبتنا أن منصة تسلسل البنادق الجديدة Solexa ، التي تقرأ حجمًا كبيرًا من شظايا الحمض النووي القصيرة ، يمكن استخدامها للحصول على أنواع متعددة من المعلومات الجينومية من سلالات مختبرية من B. الرقيقة. أولاً ، هذه التقنية قابلة للتطبيق بسهولة لاكتشاف الطفرات. تم الحصول على التسلسلات الجينية للسلالات المستخدمة على نطاق واسع JH642 و 168 و SMY و NCIB 3610 ، وتم تحديد الطفرات المعروفة بالإضافة إلى التغييرات غير المعروفة سابقًا. تشير هذه النتائج إلى أن التسلسل المباشر هو نهج حساس للغاية ودقيق للكشف عن بدائل قاعدة واحدة. ثانيًا ، اكتشفنا عمليات حذف كبيرة تبلغ 18 كيلو بايت و 9 كيلو بايت ، بالإضافة إلى حذف جين واحد (ريلا) في سلالات مشتقة من JH642. الأهم من ذلك ، أن هذه الطريقة تمكن من تحديد الطفرات الكابتة المتعددة في سلالة واحدة ، وبالتالي توفر أداة قوية لحل المشكلة التي غالبا ما تكون صعبة لتحديد الكابت.

التسلسل المباشر كأداة جديدة وتعزيزها الإضافي

كان الجهد الكبير الذي بذلناه أثناء معالجة معلومات التسلسل هو تحقيق الدقة ، من خلال الجمع بين طرق تجميع التسلسل المستقل (MAQ و SOAP و Edena) لمعالجة القراءات من محلل الجينوم. ثم تحققنا من صحة النتائج واستكملناها عن طريق أخذ العينات باستخدام تسلسل Sanger والتحقق التجريبي الشامل.

مسودة محدثة من 168 تسلسل مرجعي

كشفت عملية إعادة التسلسل الخاصة بنا للجينوم المرجعي البالغ عددها 168 عن & # x0223c1800 بدائل أساسية ، بالإضافة إلى عمليات الإدراج والحذف. تمكنا من اختبار دقة قراءات Solexa بعدة طرق مستقلة واستبعاد أخطاء تسلسل Solexa باعتبارها السبب المحتمل لهذه الاختلافات. هذا ليس مفاجئًا لأن المسودة الأصلية نُشرت منذ أكثر من عقد [4]. علاوة على ذلك ، لاحظنا أن فقدان التماثل بين العزلات المستقلة من نفس السلالة لم يكن مرتفعًا بما يكفي لشرح التناقضات الملحوظة. لقد كشفنا أيضًا عن مناطق ذات تباين أعلى في التسلسل ، والذي من المحتمل أن يكون بسبب اختلافات الإجهاد في شرائح الحمض النووي المستخدمة في اتحاد التسلسل 1997 (Danchin A ، الاتصال الشخصي). وهكذا توصلنا إلى أنه يمكن تحديث التسلسل المرجعي بناءً على نتائج Solexa (رقم الانضمام إلى مشروع DDBJ / EMBL / GenBank <"type": "entrez-nucleotide" ، "attrs": <"text": "ABQK00000000" ، "term_id ":" 195984424 ">> ABQK00000000). لا يتضمن هذا الإصدار بعض التباين الذي لاحظناه في أوبرا RNA الريبوزومية ، حيث لا يمكن تعيينها من خلال تسلسل البندقية فقط. بالإضافة إلى مسودتنا ، هناك تحديث كامل ومشروح للتسلسل 168 المنشور مسبقًا [4] قيد الإعداد وسيستفيد منه B. الرقيقة المجتمع بشكل هائل (Danchin A ، غير منشور).

اقرأ التغطية و CGH

تهجين الجينوم المقارن (CGH) هي تقنية قائمة على المصفوفة الدقيقة لدراسة إعادة ترتيب الجينوم بما في ذلك الازدواج والحذف في كائنات متعددة ، وقد تم استخدامه لدراسة حالة تكرار الحمض النووي في البكتيريا بما في ذلك بكتريا قولونية و B. الرقيقة [32] ، [33]. أثناء فحص تغطية التسلسل ، وجدنا أن التسلسل المباشر وحساب تغطية القراءة يوفران بديلاً لتهجين المصفوفات الدقيقة كطريقة CGH (الشكل 1) ، والتحايل على المشكلات بسبب التهجين غير المحدد في طرق المصفوفات الدقيقة. تغطية القراءة هي عدد أجزاء الحمض النووي القصيرة التي يقرأها محلل الجينوم ، ويجب أن يكون هذا الرقم متناسبًا مع عدد أجزاء الحمض النووي في منطقة جينومية معينة موجودة في DNA المدخلات. يختلف شكل منحنى تغطية القراءة اعتمادًا على حالة النمو ، ويكون مسطحًا تقريبًا لخلايا المرحلة الثابتة (الشكل 1 أ ، ج ، د ، هـ) ، مما يشير إلى أن هذه الخلايا لها DNA متماثل تمامًا ، كما هو متوقع. ومن المثير للاهتمام ، أن التغطية أعلى قليلاً حول أصل النسخ المتماثل ، وهي أدنى مستوى بالقرب من فاصل النسخ المتماثل ، على الأرجح لأن مجموعة فرعية صغيرة من الخلايا كانت لا تزال تقوم بتكرار الحمض النووي. الأهم من ذلك ، في عينة مكررة بشكل نشط (الشكل 1 ب ، و) ، وجدنا تغطية قراءة أعلى بكثير بالقرب من الأصل (عند موضع الجينوم 0 / 4.2 ميجا بايت في الثانية) بدلاً من منطقة النهاية (عند موضع الجينوم 2.1 ميجا بايت في الثانية). عند دقة أعلى ، لاحظنا ضوضاء في التغطية تقابل اختلاف محتويات AT. لا نعرف في أي خطوة حدث هذا الإثراء المحدد لتسلسلات AT ، ومع ذلك ، يمكن القضاء على هذا إذا استخدمنا خريطة تغطية المرحلة الثابتة كمرجع لتصحيح محتوى AT والتغيرات الأخرى غير المعروفة. توفر تغطية القراءة أيضًا معلومات دقيقة وعالية الدقة حول عمليات الحذف ، حتى وصولاً إلى مستوى الجين الفردي ، كما هو موضح في ريلا- (الشكل 1E و F وإقحم).

تجميع الطفرات

كشفت نتائج التسلسل لدينا عن مناطق ذات كثافة عالية من الاختلافات في التسلسل بين السلالات ذات الصلة (الشكل S1). يمكن أن تكون هذه المناطق قد نشأت بطريقتين محتملتين. أولاً ، قد تكون هذه المناطق قابلة للتغيير بدرجة كبيرة. Regions of hyper-mutability have been visualized before [34] and whole-genome sequencing methods might accelerate the characterization of these changes, effectively facilitating efforts to understand the mechanisms of genomic instability, an important factor in tumorigenesis. Second and more likely, these regions might correspond to DNA of foreign origin. For example, we observed changes clustered in a 4 kb region that were likely to have arisen by horizontal gene transfer during the genetic manipulation to obtain JH642 (Figure S1). These changes are very difficult to find with traditional methods but can be easily identified by plotting the mutation distribution as shown in Figure S1. In addition, we found that the majority of the differences between 168 and SMY were located within a 6.4 kb span that includes the trpC-D-E, aroH-B-F و cheR genes (Figure S1). This heterogeneous cluster was identified previously by the comparison of two laboratory strains (L1437 and JH642) by microarray analysis [35],[36], and is shown to be acquired by horizontal transfer of DNA from a related عصية strain (Zeigler D, unpublished). We found that the genomic sequences of NCIB 3610 and 168 were highly similar, suggesting that they are closely related, supporting results from an independent study showing that NCIB 3610 is most likely the ancestor of 168 (Zeigler D, personal communication).

There are certain limitations to our current method. For example, while using MAQ to perform variant identification, we eliminated false positives by raising the quality score cutoff to 40. This cutoff score was chosen empirically, by shuffling and randomly dividing the Solexa sequence reads of one genome, calling the sequences independently, comparing independent calls and choosing a score that did not give any discrepancies ( Figure 2 ). We verified that the scores obtained by MAQ were very close to the Phred scores, indicating that score 40 meant that the error rate was 0.01%. If all bases had a score of 40, we would expect � errors per genome (0.01 errors for every 100 bases of the 𢏄 megabase genome). However, since most bases had scores much higher than 40, the final number of errors per genome is much closer to 0. This helped us to limit false positives so that almost all changes that we identified were bona-fide genetic differences. When this cutoff value was lowered, we obtained dramatically increased false positives. However, as a trade-off, we might not have been able to identify certain existing changes that had lower quality scores. It is also possible that the error rate we obtained might be an underestimate if there are systematic errors, although we did not identify any systematic errors while verifying our results by Sanger sequencing. In addition, although our shotgun sequencing originally identified a large number of insertions and deletions, many of these were not included in our current draft sequence since we used a high threshold to prevent the inclusion of false positives. If these changes are real, they are likely to have significant impacts including the disruption of open reading frames, which sometimes results in dominant negative or null alleles. Verification of these changes will lead to further updated versions. Similarly, certain large deletions are also not reflected in our present draft. Our current approach is also insufficient for detecting heterogeneities, such as mutation rates, in a given cell population. This is because the inherent error rate of each read is higher than the spontaneous mutation rate in cells, while each sequence call is based on the majority consensus. Despite these potential limitations, we were able to obtain a considerable number of genetic insights using whole genome shotgun sequencing. Finally, with the improvement of sequence analysis software and wider use of de novo sequence assembly programs, this method can be used to detect additional types of mutations, including DNA rearrangements.

Genome Diversity and Phenotypic Variations between Laboratory Strains

B. الرقيقة is one of the most extensively investigated Gram-positive bacteria. Microarray-based comparative genomic hybridization (M-CGH) studies have demonstrated that there is considerable genome diversity within naturally occurring populations of B. الرقيقة strains collected from diverse geographic locations [19]. Much of the diversity was attributed to genes required for phage-related functions or those which were likely acquired by horizontal transfer. Other genes that were found to diverge significantly included those that encoded environmental sensors, detoxifying enzymes and proteins involved in antibiotic production. Essential metabolic functions were mostly encoded by less divergent genes in different populations of B. الرقيقة. Overall, as many as 28% of the genes in these strains were found to be significantly different from 168. However, between the two cultivated B. الرقيقة strains 168 and NCIB 3610, M-CGH studies revealed almost no significant sequence divergence [19]. The whole genome sequences of B. الرقيقة and its close relatives that have evolved in nature are available [37] (http://www.bacillusgenomics.org/bsubtilis).

Using whole genome sequencing to achieve near-complete coverage, we compared, base by base, the differences between related laboratory strains that have 𠆎volved’ in different laboratories, and between independent isolates of several strains. We confirmed that the genomes of 168 and NCIB 3610 have few base differences, and that NCIB 3610 possesses an extra-chromosomal plasmid, that we named pAS32 [19]. We also found that individual isolates of the same strain appear to be quite isogenic, differing by only tens of bases. In particular, two different isolates of JH642 utilized in different laboratories only diverge by 𢏆 bases (The actual difference between the isolates might be even smaller, since we sequenced only a single colony per isolate after streaking it out on LB plates, potentially introducing further mutations). Among these 6 variants, only 3 are missense mutations, and they are in the genes yckJ, phoB and ylmF, which encode a putative L-cystine permease, a secreted protein induced by phosphate starvation, and a hypothetical cell division protein, respectively. We have not examined the possible phenotypic differences resulting from these three missense mutations, and it remains possible that there may not be any phenotypic differences between the two isolates of JH642. Such studies provide a reasonable framework for estimating the reproducibility of experimental results obtained with independently propagated isolates.

We further discovered that several laboratory strains that are reportedly related also display tens to hundreds of base differences and insertions and deletions, including regions of horizontal transfer. Some of the variations we identified lead to phenotypic differences. For example, we discovered a novel defect in the citrate signal transduction pathway of JH642. citS encodes the histidine kinase sensor of a two-component system regulating the transport of citrate into B. الرقيقة. JH642, unlike its ancestral strains, has a loss of function mutation in citS, leading to the inability to utilize citrate as a carbon source. The revelation and our subsequent experimental verification of this defect demonstrate the power of whole-genome sequencing.

Tripartite Genetic Interaction between (p)ppGpp Synthases in B. الرقيقة

B. الرقيقة is a powerful model system to identify genetic pathways. One common approach to identify components of a given genetic pathway is through genetic modifier screens- enhancer and suppressor screens. However, identification of the molecular nature of the mutations obtained in a genetic screen is often laborious. Furthermore, in some cases, it can be difficult to identify mutations using traditional genetic mapping for example, in the absence of an expression library or when the phenotype observed is due to the combinatorial effect of multiple mutations rather than one mutation alone. The potential difficulty due to multiple suppressors can be easily resolved with whole-genome sequencing, as we have demonstrated by identifying in a single strain, two ريلا- suppressor mutations in the ريلا متماثلون yjbM و ywaC.

في B. الرقيقة, the pre-existing paradigm for stringent control was that a single synthase/hydrolase of (p)ppGpp, the RelA protein, modulated the stringent response to nutritional stress [30]. Using whole-genome sequencing, we found that within one B. subtilis relA- strain, two suppressor mutations spontaneously arose, each mapping to a different homolog of ريلا and contributing to the partial recovery of growth. Multiple suppressors of relA- which are generated independently and spontaneously had mutations that mapped almost exclusively to ywaC و yjbM. These two small homologs of RelA were independently identified using bioinformatics approaches in العقدية الطافرة و B. الرقيقة and possess only the synthesis, but not the hydrolysis and regulatory activities of RelA [10],[11]. Our results demonstrate strong genetic interactions among the three genes, and that RelA, rather than acting alone, acts in concert with these two other (p)ppGpp synthases ( Figure 7A ). حذف ريلا abolishes the cells' ability to degrade (p)ppGpp, thus leading to poor growth likely because they produce too much (p)ppGpp rather than too little. This growth defect might subsequently trigger mutations in yjbM و ywaC, which encode (p)ppGpp synthases. Finally, the strain evolves to eliminate (p)ppGpp synthesis activity, and is not as viable as a wild type strain that has all three genes, but nonetheless attains a strong growth advantage with respect to the relA- أضنى. Intriguingly, (p)ppGpp is virtually undetectable both in the relA-* suppressor strain and the relA- deletion strain (data not shown) [30], by thin layer chromatography (TLC), likely because relA- cells possess levels of (p)ppGpp that are below the limit of detection of TLC. In addition, within a population of relA- cells, individual cells that accidentally produce (p)ppGpp will not be able to degrade it and therefore will fail to grow and divide, resulting in a further diluted level of the nucleotide in a population. Our results do not rule out the possibility that RelA interacts directly with YjbM and/or YwaC to modulate their function and prevent any deleterious effects caused by their unregulated activity.

أ). Metabolism of (p)ppGpp in B. الرقيقة. (p)ppGpp is synthesized by the enzymes YjbM, YwaC and RelA, but degraded only by RelA. ب). Metabolism of (p)ppGpp in بكتريا قولونية. (p)ppGpp is synthesized by the enzymes RelA and SpoT, but degraded only by SpoT.

A comparison can be made with بكتريا قولونية, where (p)ppGpp is synthesized by two proteins, RelA and SpoT ( Figure 7B ). RelA produces (p)ppGpp, and SpoT can both produce and hydrolyze (p)ppGpp. ال بقعة- strain is not viable and can only be relieved by ريلا- mutations, while ريلا- alone is viable. وبالمثل ، في B. الرقيقة, relA- is relieved by yjbM- و ywaC- الطفرات. B. الرقيقة يختلف عن بكتريا قولونية in having two enzymes that purely synthesize (p)ppGpp ( Figure 7A ). Therefore, loss of function of either enzyme alone is not sufficient to relieve the effect of loss of RelA hydrolase activity. Our experiments support an emerging paradigm that Gram-positive bacteria utilize three enzymes for (p)ppGpp production and/or degradation, all of which perhaps play important roles in bacterial stress responses [10],[11].

The tripartite genetic network that controls (p)ppGpp levels determines the evolutionary landscape that leads to the generation of multiple suppressors. Conversely, the pathways that generate suppressors can reveal the evolutionary landscape of an organism and subsequently illuminate its cellular infrastructure [38],[39]. الاغلبية العظمى من ريلا- suppressor strains have mutations in yjbM أو ywaC, and almost all colonies eventually develop mutations in both genes. The occurrence of dual mutations is likely due to strong evolutionary pressure for increased fitness, and hence is a natural consequence of the tripartite regulation. The nature of this evolutionary landscape supports genetic interactions that involve three loci, instead of the more traditional module of two loci like بقعة و ريلا في بكتريا قولونية. Similar regulatory networks involving more than two gene loci are likely to be more common than previously believed and whole-genome sequencing is a powerful tool to uncover such systems.

Close examination of the molecular nature of the suppressive genomic changes indicates that there is no obligatory cascade of mutagenic events that is triggered by ريلا deletion ( Tables 4 , ​ ,5). 5 ). Diverse types of mutations arise, including insertions, deletions, and different types of point mutations (both transitions and transversions), which are likely mediated by different mechanisms. We did notice that mutations in ywaC seemed to involve a higher incidence of deletions, although larger sequencing-based sampling is required before a conclusion can be drawn. Alleviation of the relA- growth defect does not require concurrent mutations in yjbM و ywaC, but can be achieved by sequential inactivation of these genes ( Figure 5B ). This result confirms the ability of bacteria to manipulate their genomes quickly to generate mutations that counter an unfavorable genetic change. The process of stress-induced mutagenesis is likely behind this plasticity [40]. Intriguingly, (p)ppGpp is strongly implicated in the mechanism of stress-induced mutagenesis and it is thought that genes whose transcription is up-regulated by (p)ppGpp are more susceptible to (p)ppGpp-induced mutagenesis [41],[42]. نكون yjbM و ywaC such genes and therefore specifically targeted for mutagenesis? What are the respective roles of YjbM, YwaC and RelA in sensing separate environmental stresses? These are intriguing questions that remain to be elucidated.


The POSSIBLE Gamma Squeeze (No we don't 'need' it, its POSSIBLE though)

I know you are tired of hearing claims about the ‘the next big squeeze’, but hear me out. BN-GO's stock price has literally gone >90% up from May 13th yet the short interest زيادة by over 6M shares. With the open interest of calls' outweighing the puts' open interest massively and انتهاء الصلاحية on June 18th, if the stock price keeps rising, we COULD see ATHs extremely fast.

I believe there is a possibility for a gamma and/or short squeeze if the stock can either hold where it is now or continue the move higher mostly because as you will soon learn, many shorts have an average price of <$7 and lower، و ال margin calls are no doubt coming if this continues to run. Price target is at the very least all-time-highs but we could see >$30 easily (imo) if the word actually gets out on how auspicious of an opportunity this may be.

To my understanding there are a few main things that are needed for a gamma squeeze & reasons why this may happen -

Short dated expiration call options that far outweigh puts

"A gamma squeeze can happen when there’s widespread buying activity of short-dated call options for a particular stock. This can effectively create an upward spiral in which call buying triggers higher stock prices, which results in more call buying and even higher stock prices." - Source - This is exactly what we have seen the last few days yet the shorts seem to think they will be successful in pushing the price lower based on the dramatic increase of nearly 6M shares in the short interest count in less than two weeks WITH the price going nearly 2x in less than a month!

A high short interest only increases the proclivity for gamma squeezes to occur. In BN-GO's case, the short interest has only increased since May 13th when the share price was $4.41, now we are seeing an SI of the SO of around 15% or 41.5M shares according to Ortex data -

5. Open interest of call options compared to puts is absolutely overwhelming, along with the volume. This means that people are buying and holding way more calls than puts, betting on the stock price going higher before June 18th, ten days from typing this. Not only is this bullish short term but it fits an important requirement for a gamma squeeze - more calls than puts being bought.

Market Manipulation in BN-GO's Stock Price? -

Market manipulation is essentially proven (to the degree of proof goes with MM, not provable in a court of law, but nonetheless it has happened and is still happening imo) and here are some reasons why I believe market manipulation has and is occurring in BN-GO's price action -

Trajectory of price action since Feb. 16th is nearly identical (until this week) with the majority of high growth stocks. Yet the fundamental exponential increase in value that Bio-nano Genomics has experienced over the course of 4 months is not something that many stocks have. The SI increase and FTD increase along with naked shorting (imo) would explain this. Find me a stock that has increased in fundamental value as much as BN-GO has since February 16th with a similar chart. حظا طيبا وفقك الله.

Here are the catalysts and fundamental value increases in the stock price that I can name of the top of my head that all are between February 16th and May 25th-

CEO and 3 C-suite members getting LEAPS with share exercisability valuing in the hundreds of millions WITH an exercise price of $7.83 which is NEAR the current and then stock price, announcement of 5 studies that in the company's own words would act as important marketing events that would likely lead to increased sales,

CFO projection of 'substantial double-digit revenue growth' along with his 20-40% YOY operating expense increase projection for the 'next few years' (According to own company estimates as far as sales and adoption profitability chances based on their numbers are likely to come at least one year before analysts are projection ((imo)),

MORE bullish insider transactions in the form of the CMO picking up more LEAPS after her original one mentioned above,

CEO and COO being awarded tens of millions of dollars in profit in the form of hundreds of thousands of shares 840k to be exact and as of now they have not sold any,

New EXTREMELY innovative product confirmation-nanonozzle (imo), added to MSCI index, confirmation of several large sales - Sequencing Coming to Bio-nano, United States Patent: 10995364

Several studies proving 100% concordance and increased accuracy of their main product compared to 'gold standard' of the market this company is trying to disrupt,

HUGE institutional ownership increase, from around 4-5% at lows up to 15.60% currently.

Announcement of five large clinical studies with the most important one (NIPT) coming out this year. These are likely to increase academic praise of Saphyr and increase sales in the aggregate.

Three (1 was extremely recent, so do not count it if you do not want to) China Saphyr adoptions totaling almost 1M in revenue.

Countless Saphyr adoptions and installations (see ER webcast replay)

Saphyr 2.0 prototype in Q4 2021 confirmation

Announcement of $450-$550 per genome to be reduced to $100 per genome by end of 2023 or sooner.

CEO Asked about TAM, “So in cytogenetics, broadly speaking, there's roughly 2,500 labs worldwide. Probably somewhere between 2 million samples per year being processed for this type of molecular pathology. And overall, that represents somewhere in the neighborhood of a $3 billion to $3.5 billion market for us. That includes some of the research market as well. But it's something that I would really emphasize for these investors who are asking questions is that that's the market that is right in front of us today. And with the technology accelerating capabilities as quickly as it is, being used in research to discover new applications, the total market opportunity for optical genome mapping goes well beyond that low single-digit billion number, and it's substantially larger. It's harder for us to quantify it specifically because some of the applications haven't even been developed, others are still on the come.” - Erik ------- THIS MEANS THAT the CEO thinks the TAM of BN-GO is 'substantially larger' than the current 3-3.5B estimate BECAUSE there are applications of optical genome mapping that 'have not even been developed'.

There are a myriad more listed in this document, ctrl f for best results or see 'Market Manipulation' section.

Why BN-GO is Fundamentally Undervalued-

A higher life expectancy for everyone in the aggregate along with a better quality of life is what would happen should their goal of 'global Saphyr adoption be effectuated. ɼhemotherapeutic drug enhancements' is one of many of the revolutions that we could see specifically because of what this company does. Paraphrasing the CEO, 'we believe that the next big wave of innovation in Biology will derive from optical genome mapping', which is what BN-GO's Saphyr does-optical genome mapping, and they do it better than anyone. According to the company itself, >500bp detection in SVs with Saphyr compared to the CMA, FISH, and KT competition is cost effective, requires less hands on time, and has a faster turnaround time. Not to mention it has more accurate readings and has less false positives. LOH and SNV detection are said to be in the works, currently zero of the three competing methods can detect these. Nor can FISH, CMA, or KT detect the wide range of variant classes Saphyr can.

With this knowledge, one wonders why Saphyr has not already been adopted in all 2,500 cytogenetic labs, most of this can be attributed to resistance of change and relatively low academic praise and exposure of Saphyr's capabilities, but with FIVE large clinical studies in the works on NIPT, postnatal screening, hematological malignancies in leukemia and lymphomas, and solid tumor research, that is sure to change all in due time. Not to mention cost per genome reducing from $450-$550 currently to $100 by at maximum 2023 (Saphyr is already cost effective, just imagine how cheap it will be compared to other methods once the price more than halves per genome). Throughput to increase by 14x from the already immense maximum of 5000 genomes per year with the current Saphyr system. Throw in in the nanonozzle release that 'may' include SNV detection and will ɿill in the gaps of what current NGS is missing', and one has a strong case to make that this company will revolutionize healthcare and the entire genomic sector as we know it.

My Plan & Position For Transparency Reasons -

My goal is 10k shares in total by the end of summer. I will certainly have 10k BN-GO shares by EOY. I will hodl and add for years as this is not only auspicious short term but potentially even more lucrative for long term investors (imo).

I will be adding shares this month and would not be surprised if I have >2k shares soon.

TLDR: BN-GO has a high chance (imo) of gamma squeezing and short squeezing all the way to ATHs and beyond. Add in the fact that we are fundamentally undervalued and have definitely been manipulated for months and are finally starting to see the tables turn and you have a case that this is long term hodl.

TLDR for the TLDR: BN-GO go moon this week, invest soon or fomo in at >$10, then >ATHs