معلومة

كيف نحدد احتمال ضياع / إصلاح الطفرة؟

كيف نحدد احتمال ضياع / إصلاح الطفرة؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي سؤال حول كيفية تحديد احتمالية فقدان أو إصلاح طفرة بعد جيل أو جيلين في علم الوراثة السكانية.

لنفترض أن لدينا مجتمعًا مختلطًا عشوائيًا ، مع N أفراد ثنائي الصبغة (N = 5) ، وهناك طفرة واحدة تظهر. أعلم أنه يجب أن يتبع التوزيع ذي الحدين ، لكنني سمعت أيضًا أنه قد يتبع توزيع بواسون ... وكل ما أود قوله هو أن احتمال الإصلاح هو نفس التردد في الوقت 0 ، وهو 1 / 2N ، أو هنا 1/10.

علاوة على ذلك ، كيف تحسب احتمال وجوده في نسختين؟


كيف نحدد احتمال ضياع / إصلاح الطفرة؟

إن احتمال إصلاح طفرة محايدة بعد فترة زمنية غير محدودة يساوي ترددها $ p $ كما قلت. لذلك فإن احتمال الضياع هو $ 1-p $. يقدم هذا المنشور شرحًا ولكن هناك العديد من الطرق لإجراء العرض التوضيحي. قد ترغب في إلقاء نظرة على أي كتاب جيد في علم الوراثة السكانية لهذا العرض التوضيحي. فيما يلي توصيات الكتاب.

كيف تحسب احتمال وجوده في نسختين؟

الاحتمال يعتمد دائما على بداهة. ما هي بداهة الخاص بك؟ لنفترض أننا نعلم أن تردد الأليل كان $ frac {4} {10} $ في الخطوة الزمنية السابقة.

وفقًا لنموذج رايت فيشر ، يتم إعطاء احتمال وجود نسختين في الجيل التالي من خلال التوزيع ذي الحدين. لنفترض أن $ N = 5 $ ، وبالتالي فإن $ 2N = 10 $ ودع تكرار أليل الاهتمام يكون $ frac {4} {10} $ ، واحتمال وجود أليلين في الجيل التالي هو $ {10 Choose 2} left ( frac {4} {10} right) ^ 2 left ( frac {6} {10} right) ^ 8 ≈ 0.12 $.

في ظل نموذج موران ، يكون هذا الاحتمال صفراً. نموذج موران هو نموذج ولادة وموت (نموذج ماركوف) وبالتالي فإن الانتقال بين الخطوات الزمنية لا يمكن إلا أن يضيف أو يطرح (أو لا يحدث أي تغيير) أليل واحد. ستلاحظ أن الخطوة الزمنية لا تعني نفس الشيء للنموذجين. فقدان تغاير الزيجوت أسرع بمرتين في نموذج رايت فيشر ، لكن هذه المناقشة بالتأكيد ليست ما كنت تطلبه!


الانحراف الجيني

الانحراف الجيني (الانجراف الأليلي أو ال تأثير سيوال رايت) [1] هو التغيير في تواتر متغير جيني موجود (أليل) في مجموعة سكانية بسبب أخذ عينات عشوائية من الكائنات الحية. [2] الأليلات في النسل هي عينة من تلك الموجودة في الوالدين ، وللصدفة دور في تحديد ما إذا كان فرد معين يعيش ويتكاثر. تردد أليل السكان هو جزء من نسخ جين واحد يشترك في شكل معين. [3]

قد يتسبب الانجراف الجيني في اختفاء المتغيرات الجينية تمامًا وبالتالي تقليل التباين الجيني. [4] يمكن أن يتسبب أيضًا في أن تصبح الأليلات النادرة في البداية أكثر تواترًا وثباتًا.

عندما تكون هناك نسخ قليلة من الأليل ، يكون تأثير الانجراف الجيني أكبر ، وعندما يكون هناك العديد من النسخ يكون التأثير أقل. في منتصف القرن العشرين ، دارت مناقشات محتدمة حول الأهمية النسبية للانتقاء الطبيعي مقابل العمليات المحايدة ، بما في ذلك الانجراف الجيني. رونالد فيشر ، الذي شرح الانتقاء الطبيعي باستخدام علم الوراثة المندلية ، [5] كان يرى أن الانحراف الجيني يلعب دورًا ثانويًا في التطور ، وظل هذا هو الرأي السائد لعدة عقود. في عام 1968 ، أعاد عالم الوراثة السكانية موتو كيمورا إثارة الجدل من خلال نظريته المحايدة للتطور الجزيئي ، والتي تدعي أن معظم الحالات التي ينتشر فيها التغيير الجيني عبر مجموعة سكانية (على الرغم من أنه ليس بالضرورة تغيرات في الأنماط الظاهرية) ناتجة عن الانجراف الجيني الذي يعمل على طفرات محايدة. [6] [7]


كيف نحدد احتمال ضياع / إصلاح الطفرة؟ - مادة الاحياء

كما تمت مناقشته في المقدمة ، فإن الطفرات هي تغييرات في الشفرة الجينية تؤدي إلى ظهور سمات مختلفة. يمكن أن تنتقل هذه الطفرات وراثيًا ويمكن فقدانها أو إصلاحها. نظرًا لأن الطفرة تؤثر عادةً على فرد واحد في مجموعة سكانية ، فإن الجزء الأولي صغير وبالتالي يكون احتمال التثبيت صغيرًا أيضًا (احتمال كبير للخسارة). ومع ذلك ، في التجمعات السكانية الكبيرة حتى مع وجود جزء أولي صغير ، يمكن أن يستغرق الأمر وقتًا طويلاً حتى يكتمل فقدان الطفرة. على سبيل المثال ، عندما يبلغ عدد سكانها 10000 شخص ، فإن متوسط ​​الوقت اللازم لتثبيت أو فقدان طفرة من فرد واحد هو حوالي 20 جيلًا أو 500 عام!

فيما يلي بعض الأمثلة على الطفرات في النباتات والحيوانات والبشر:

تسببت طفرة في هذه الورود الطحلبية في الحديقة (كما هو موضح في اليسار) في نمو بعض الأزهار باللون البرتقالي بدلاً من الأصفر. رصيد الصورة: http://en.wikipedia.org/wiki/Mutation. على اليمين ، طفرة شائعة إلى حد ما في الفئران تسبب عصابات في الغلاف حول الجسم. رصيد الصورة: http://www.thefunmouse.com/varties/marked.cfm

أخيرًا ، تؤدي الطفرة الشائعة لدى البشر إلى تشكيل خلايا الدم الحمراء على شكل منجل كما هو موضح أعلاه في الجزء العلوي الأيسر. تُعرف هذه الطفرة باسم فقر الدم المنجلي. رصيد الصورة: http://www.emedicinehealth.com/sickle_cell_crisis/article_em.htm

لربط فكرة الطفرات بمناقشتنا للحمض النووي والبروتينات ، إليك بعض الأمثلة عن كيف يمكن أن تؤدي الطفرة في الحمض النووي إلى تغيير في البروتين:

1) يتم إدخال أو حذف عدد من النيوكليوتيدات غير القابلة للقسمة على ثلاثة في الحمض النووي. هذا يغير موضع الكودونات التي يتم قراءتها لإنشاء أحماض أمينية ويعرف باسم طفرة الإطارات. على سبيل المثال ، إذا كان التسلسل الأصلي هو CCC CAG AGA (المقابل للأحماض الأمينية البرولين والجلوتامين والأرجينين) وكان هناك إدخال (باللون الأحمر) يؤدي إلى تسلسل CC GA CC AGA GA ، فإن الأحماض الأمينية المقابلة ستتغير إلى برولين ، ثريونين وأرجينين وسيغيران القواعد الموجودة في الكودونات في باقي الحمض النووي الريبي الذي يقرأ بعد هذا التسلسل.

2) الطفرة غير المنطقية هي تغيير القاعدة عند نقطة ما في الحمض النووي الذي يسبب إشارة توقف حيث لا ينبغي للمرء أن يكون كذلك ويوقف تكوين البروتين في الوسط.

3) الطفرة المغلوطة هي تغيير في القاعدة عند نقطة في الحمض النووي ينتج عنه استبدال حمض أميني مختلف عما كان مقصودًا في الأصل في مرحلة ما من البروتين. هذا يمكن أن يغير أو يثبط وظيفة البروتين.

4) الطفرة المحايدة هي التي تؤدي إلى استبدال حمض أميني مختلف عن المقصود أصلاً ، ولكن ليس لطفرة تغير وظيفة البروتين.

5) الطفرة الصامتة هي الطفرة التي لا تؤدي إلى تغيير في تسلسل الأحماض الأمينية للبروتين.


مقدمة

نظرًا لأن معظم الطفرات ضارة ، فإن معدل الطفرات لا يمكن أن يكون مرتفعًا جدًا في الواقع ، في عدد لا نهائي من السكان ، لفئة واسعة من وظائف اللياقة البدنية ، فقد ثبت وجود عتبة خطأ لا يمكن تعويض الآثار الضارة للطفرة فوقها الاختيار (Eigen 1971 Jain and Krug 2007). معدل الطفرات ليس صفرًا أيضًا (Baer et al.2007) ، وقد قيل أن التقلبات العشوائية في مجموعة سكانية محدودة تحد من تطور معدلات الطفرات إلى ما دون مستوى معين نظرًا لأنه في مجموعات سكانية صغيرة بما يكفي ، فإن الميزة المكتسبة عن طريق خفض معدل الطفرات لا يمكن أن يعوض تأثير الانجراف الجيني العشوائي (Lynch 2010). تُظهر البيانات التجريبية للكائنات الحية ذات الحجم السكاني الفعال المختلف على نطاق واسع ارتباطًا سلبيًا بين معدل الطفرات الضارة وحجم السكان (Sung et al. 2012) ، وقد تم الحصول على بعض البصيرة الكمية حول هذه العلاقة من خلال معالجة جميع الطفرات الضارة لتكون قاتلة ( لينش 2011). ومع ذلك ، من الواضح أن هذا سيناريو متطرف ، ومن المهم أن نسأل كيف يتطور معدل الطفرات الضارة عندما تكون الطفرات ضارة بشكل ضعيف.

أظهرت العديد من التحقيقات النظرية والتجريبية أيضًا أنه في حالة تكيف السكان اللاجنسيين ، يمكن إصلاح أليل متحور يتسبب في معدل طفرة أعلى من معدل طفرة غير متحولة [انظر المراجعة الأخيرة التي أجراها Raynes و Sniegowski (2014)]. نظرًا لأن الطفرات تنتج ليس فقط طفرات ضارة ولكن أيضًا طفرات مفيدة بمعدل أعلى من غير المتحولين ، يمكن للأليل الطافر أن يربط التثبيت بطفرات مواتية (Smith and Haigh 1974 Taddei et al. 1997). ومع ذلك ، بمجرد أن يصل السكان إلى مستوى لياقة عالي ، فإن معدلات الطفرات المرتفعة تكون ضارة لأن معظم الطفرات ستكون الآن ضارة ، وفي مثل هذه الحالة ، من المتوقع أن ينخفض ​​معدل الطفرات (Liberman and Feldman 1986). في الواقع ، في بعض التجارب (Tröbner and Piechocki 1984 Notley-McRobb et al. 2002 McDonald et al. 2012 Turrientes et al. 2013 Wielgoss et al. 2013) ، لوحظ انخفاض معدل الطفرات في مجموعة سكانية متكيفة تحمل أليل متحور وقد تم قياس وقت التثبيت ، لكن الفهم النظري لهذا المقياس الزمني مفقود.

لمعالجة القضايا التي تمت مناقشتها أعلاه ، ندرس مصير شخص نادر غير متحرك في مجموعة كبيرة من المتحولين اللاجنسيين باستخدام عملية تفرع متعددة الأنواع (Patwa and Wahl 2008). هناك فرق مهم بين الأعمال السابقة المتعلقة بالانتقال بالطفرات (Taddei et al. 1997 Andre and Godelle 2006 Wylie et al. 2009 Desai and Fisher 2011) ودراستنا هو أنه هنا يفترض أن مجموعة الطفرات في حالة توازن انتقائي للطفرات وهي لذلك ليس تحت الاختيار الإيجابي. ومع ذلك ، يتم تضمين الطفرات التعويضية التي تخفف من تأثير الطفرات الضارة في نموذجنا. وجدنا أنه عند وجود الطفرات الضارة فقط ، يمكن إصلاح غير المتحول باحتمالية تزيد مع معدل الطفرات الضارة للطفرة. من المتوقع أن تؤدي الطفرات التعويضية في مجموعة الطفرات إلى تقليل احتمالية التثبيت للغير متحرك ، ووجدنا أن هذا الحدس صحيح بالفعل عندما تكون الطفرات الضارة في الطفرات قاتلة بشكل فعال. ولكن من المدهش أنه عندما تكون الطفرات الضارة ضارة بشكل طفيف ، فإن احتمال التثبيت يزداد مبدئيًا ثم ينخفض ​​مع زيادة معدل الطفرات التعويضية. وهكذا تحدد دراستنا الظروف التي يتم في ظلها قمع انتشار nonmutators في غياب الاختيار الإيجابي ، وتكمل الأعمال السابقة التي يتنقل فيها طفرات مع طفرات مفيدة للتثبيت (Taddei et al. 1997 Andre and Godelle 2006 Wylie et al. 2009 ديساي وفيشر 2011).

باستخدام نتائجنا لاحتمالية التثبيت وحجة حاجز الانجراف التي تنص على أن الميزة التي يوفرها انخفاض معدل الطفرات الضارة محدودة بسبب الانجراف الجيني العشوائي في مجموعة سكانية محدودة (Lynch 2010) ، نجد أن معدل الطفرات الضارة ينخفض مع زيادة حجم السكان وفقًا للبيانات التجريبية (Sung et al. 2012). ومع ذلك ، على عكس العمل النظري السابق الذي يعالج الطفرات الضارة لتكون قاتلة بشكل فعال (Lynch 2011) ، فإننا هنا نأخذ في الاعتبار الطفرات الضارة بقوة وضعف ، ولا نعيد إنتاج النتيجة في Lynch (2011) فحسب ، بل نجد أيضًا قانونًا جديدًا للتوسع في الحالة الأخيرة. نستخدم أيضًا النتائج الخاصة باحتمالية التثبيت لإيجاد الوقت لخفض معدل الطفرات في مجموعة متكيفة من الطفرات ومقارنة نتائجنا النظرية بالتجارب الحديثة (McDonald et al. 2012 Wielgoss et al. 2013).


مناقشة

خطأ في التسلسل في NGS

لقد أدى تطوير NGS إلى تسريع اكتشاف التباين الجيني بشكل كبير مع تقليل الوقت والتكلفة بشكل كبير. ومع ذلك ، فإن معدل خطأ التسلسل الأعلى لـ NGS يمثل أيضًا تحديًا حسابيًا لعلماء الأحياء [23]. بشكل عام ، يمكن تصنيف خطأ التسلسل إلى نوعين: خطأ الجهاز ، الناجم عن المجموعات المختلطة ، أو اضمحلال شدة الإشارة ، أو مشكلة التدريج (لمحلل جينوم Illumina (GA)) ، وبالتالي يجب توزيعها عشوائيًا على التسلسل المستهدف والخطأ المنتظم ، ناتج عن مادة كيميائية / مستشعر / تقنية غير كاملة ، مما ينتج عنه نقاط ساخنة لمعدل الخطأ في مواقع جينومية محددة [7 ، 10 ، 24].

يمكن إزالة معظم أخطاء الجهاز من خلال سلسلة من الفلاتر للحصول على نقاط الجودة و / أو عدم التطابق [24]. على النقيض من ذلك ، فإن تمييز الخطأ المنهجي أكثر صعوبة ، حيث أن درجة الجودة لا تعكس معدل الخطأ الحقيقي في النقاط الساخنة للخطأ [7 ، 9]. في الآونة الأخيرة ، تم اقتراح بعض خصائص الأخطاء المنهجية التي يمكن أن تساعد في تحديدها. على سبيل المثال ، الموضعان G-error-G و G-error-A لهما أعلى معدل خطأ [8] ، بينما تميل النقاط الساخنة لخطأ التسلسل إلى التواجد بعد التكرارات المعكوسة وتسلسلات GGC أو GGT [7 ، 9 ، 10]. على الرغم من أننا وجدنا أيضًا أن هذه الميزات مرتبطة بأخطاء منهجية إحصائيًا ، إلا أنها يمكن أن تشرح فقط جزءًا محدودًا من تباين معدل الخطأ ، حيث أظهر الموضع الذي يتبع هذه الأشكال معدل خطأ مع تباين يصل إلى عشرة أضعاف (الشكل S3 في ملف إضافي 1) ، كما لوحظ مؤخرًا في مكان آخر [10].

في دراستنا ، وجدنا أن أخطاء التسلسل تحدث غالبًا في نفس الموضع لدى أفراد مختلفين ، خاصةً بالنسبة للمواقف ذات أعلى معدل خطأ (الشكل 3). من غير المحتمل أن يكون سبب هذا الاتجاه هو آلة التسلسل المعينة لأنه يمكن أيضًا ملاحظة الارتباط بين البيانات التي تم إنشاؤها بواسطة آلات الفروق. تشير هذه الملاحظة إلى أنه يمكن تقدير معدل الخطأ لتسلسل الفائدة من لوحة مرجعية لها نفس التسلسل. علاوة على ذلك ، من خلال فحص معدل الخطأ لأجزاء مختلفة من القراءات وللقراءات من خيوط مختلفة ، وجدنا بعد مرشح الجودة أن: 1) يختلف خطأ التسلسل عبر أجزاء مختلفة من القراءة وفي مواضع مختلفة (الشكل 2 الجدولان S5 و S6 في الملف الإضافي 3) و 2) يكون معدل الخطأ خاصًا بالخيوط (الشكل 2) ، حيث تختلف سياقات التسلسل على الخيوط في معظم الأوقات. لذلك ، يجب مراعاة موضع واتجاه القراءات المعينة للموضع المشكوك فيه عند تقدير معدل خطأ التسلسل.

هناك مشكلة أخرى تتمثل في إزالة القراءات المكررة أم لا ، حيث قد تعكس نفس جزيء قالب البداية. من ناحية أخرى ، يمكن أن يؤدي تضمين القراءات المكررة إلى تضخيم إشارة الخطأ الناشئة عن أخطاء PCR ، ولكن من ناحية أخرى ، تؤدي إزالة القراءات المكررة بناءً على تنسيق البداية فقط على الجينوم إلى تقليل التغطية بشكل كبير (للقراءات أحادية النهاية) . من خلال تحليل البيانات ذات النهاية المزدوجة من مكتبتي تسلسل mtDNA مع أعماق تسلسل مكافئة ، وجدنا أن كل مقطع في المكتبة قد تكرر بمعدل 1.19 مرة ، مع 454 مقطعًا (0.01 ٪) مكررة أكثر من 10 مرات ، والجزء الأكثر تكرارًا موجودة في 247 نسخة. بالنسبة للعينات المختلطة بشكل مصطنع ، عن طريق إزالة القراءات المكررة ، فقدنا أكثر من 90٪ من القراءات وفقدت طريقتنا 4 مواضع LLM. لذلك ، سيكون من المعقول الاحتفاظ بجميع القراءات في التحليل مع أخذ القراءات المكررة في الاعتبار عند تحديد LLM.

ميزات طريقتنا

إن فهم خطأ التسلسل يجعل من الممكن تمييز الأخطاء عن LLMs الحقيقية. بينما تتوفر طرق مختلفة تستخدم ميزات مختلفة لأخطاء التسلسل ، فقد طورنا طريقة تؤدي أداءً أفضل من الطرق الأخرى في اكتشاف LLM (بناءً على عينات مختلطة اصطناعياً ، حيث يكون عمق التسلسل / عدد الأليل الصغير أقل بكثير من ذلك المستخدم / المقترح في دراسات أخرى [14 ، 17]). علاوة على ذلك ، فإن طرق التنميط الجيني القياسية المتاحة ليست مصممة لاكتشاف LLM. على سبيل المثال ، بالنسبة لمجموعة أدوات GATK المستخدمة على نطاق واسع [11] لا يوجد سوى ثلاثة ترددات أليل ممكنة (0٪ ، 50٪ ، 100٪) ، بينما يوجد نطاق أوسع بكثير من الترددات لـ LLMs. علاوة على ذلك ، يتطلب GATK قاعدة بيانات SNP موثوقة ، والتي لا توجد لـ LLMs ، ويستخدم GATK المقاييس لتقييم / تحسين مكالمات SNP الجديدة (مثل نسبة الانتقالات إلى عمليات التحويل) التي لا توجد لـ LLMs.

الطريقة المقدمة هنا تعتمد على العديد من الميزات. أولاً ، تقدر طريقتنا معدل الخطأ من بيانات إعادة تسلسل السكان. لكل موقع في المنطقة المستهدفة ، يتم تقدير معدل الخطأ التجريبي من جميع القراءات المعينة إلى العينات المرجعية التي لها نفس النوكليوتيدات الإجماعية. لذلك ، نستخدم سياق التسلسل الكامل ، بدلاً من سياق محدود أو مختلف تمامًا ، لتقدير خطأ التسلسل. علاوة على ذلك ، نظرًا لأنه يتم تحليل جميع العينات باتباع نفس خط الأنابيب ، يتم أيضًا أخذ أي أخطاء تظهر أثناء التحليل (مثل خطأ التعيين) في الاعتبار.

ثانيًا ، يتم أخذ توزيع القراءات في الاعتبار. كما هو موضح أعلاه ، ليست كل القراءات المعينة لنفس الموضع لها نفس معدل الخطأ ، وبالتالي ، فإننا نصنف القراءات في سلال وفقًا لموضعها واتجاهها المعين للتسلسل المستهدف. نظرًا لأن معدل الخطأ في كل حاوية يتم تقديره بشكل منفصل ، فإن القراءات في صناديق مختلفة تعطي أوزانًا مختلفة في استدعاء LLMs. بالإضافة إلى ذلك ، فإن مساهمة كل سلة في نقاط الجودة النهائية لها حد أعلى ، وذلك لمنع الإيجابيات الخاطئة التي تسببها القراءات المكررة.

ثالثًا ، ليس مطلوبًا التردد المطلق أو قطع التغطية. تُستخدم عتبة التردد على نطاق واسع للتمييز بين LLM وأخطاء التسلسل ، ولكن يجب أن تعتمد عتبة التردد هذه على التغطية ، أي أن عتبة التردد تصبح أصغر مع تغطية أعلى. نظرًا لأن عمق التسلسل موزع بشكل غير متساوٍ على طول الجينوم ، فإن عتبة تردد واحدة إما أن تبالغ في تقدير العدد الحقيقي للـ LLM أو تقلل من شأنها. بدلاً من ذلك ، في طريقتنا أ ص-يتم حساب القيمة لتمثيل احتمال الملاحظة تحت فرضية العدم (ينتج الأليل الصغير عن خطأ في التسلسل).

رابعًا ، تعطي طريقتنا درجة جودة مفهومة تشبه Phred ، مما يعكس موثوقية الأليل الصغير لكل موضع. هذا يجعل من السهل تطبيق استراتيجيات اكتشاف مختلفة ، اعتمادًا على رغبات المحقق ، أي معدل إيجابي كاذب أعلى مع معدل سلبي كاذب أقل ، أو معدل إيجابي كاذب أقل مع معدل سلبي كاذب أعلى.

مرونة طريقتنا

من الناحية المثالية ، يجب ألا تحتوي العينات المرجعية المستخدمة لتقدير معدل الخطأ على أي LLMs ، أو عدد قليل من LLMs في نفس الموضع. من الناحية العملية ، يظل هذا الافتراض ثابتًا في معظم مواضع LLM ، ومع ذلك ، بالنسبة للتباين المشترك حيث يمكن ملاحظة معدل خطأ أعلى بشكل ملحوظ في معظم الصناديق ، يمكن استخدام معدل خطأ ثابت (كما تم تنفيذه في طريقة Poisson). على سبيل المثال ، باستخدام معدل خطأ 0.01 عندما يكون معدل الخطأ المرجعي أعلى بكثير من 0.01 ، اكتشفنا بنجاح جميع الاختلافات الشائعة في مجموعة بيانات PhiX174 دون أي إيجابيات خاطئة (الشكل S8 في ملف إضافي 1). ومع ذلك ، إذا كانت العينات المرجعية غير متوفرة للمنطقة محل الاهتمام ، فيمكن استخدام معدل خطأ مقدر من بيانات التحكم أو نقاط الجودة أو بعض مجموعات البيانات الأخرى لجميع المواضع وجميع الصناديق. في هذه الدراسة ، لم نلاحظ أي نقطة ساخنة للخطأ لها معدل خطأ أعلى بكثير من معدل الخطأ الإجمالي في طريقتنا (أي تجاوز عتبة لدينا لاستدعاء LLM). ومع ذلك ، فإن استخدام معدل خطأ متوسط ​​قد ينتج عنه معدل سلبي خاطئ أعلى.

نظرًا لعدم اليقين من التوزيع الأساسي لخطأ التسلسل عبر التسلسل المستهدف ، قدمنا ​​ثلاث طرق لحساب ص- قيمة انحراف الملاحظة عن التوقع. تفترض طريقة بواسون أن معدل خطأ التسلسل يتبع توزيع بواسون أو ذو الحدين ، في حين أن طرق فيشر الدقيقة والتجريبية لا تفترض أي توزيع محدد لأخطاء التسلسل. تقيس طريقتا بواسون وفيشر بالضبط الفرق المطلق بين تردد الأليل الصغير المرصود ومعدل الخطأ ، بينما تقيس الطريقة التجريبية ترتيب تردد الأليل الصغير بين جميع معدلات الخطأ المرجعية. في دراستنا ، أظهرت جميع الطرق الثلاثة نوعية جيدة (معدل اكتشاف خاطئ & lt 1٪). تتميز الطريقة التجريبية بحساسية أعلى عندما يكون تردد الأليل الصغير منخفضًا (& lt 5٪) ، وفي هذه الحالة يميل الفرق بين تردد الأليل الصغرى ومعدلات الخطأ إلى التضخيم من خلال ترتيب تردد الأليل الصغير (على سبيل المثال ، الأليل الصغير التردد الذي احتل المرتبة الأولى يمكن أن يظل قريبًا جدًا من الملاحظات المتبقية). ومع ذلك ، يجب استخدام الطريقة التجريبية بحذر عند معالجة البيانات من مسارات / مسارات التسلسل المختلفة ، حيث يمكن أن يوجد اختلاف جوهري في خطأ التسلسل بين العينات المرجعية وعينات الاختبار بسبب الاختلاف بين الممرات / المسارات (الشكل S4 في ملف إضافي 1 ) ، ويمكن التقاط مثل هذا الاختلاف الهامشي كإشارة LLM.

على الرغم من أن بيانات هذه الدراسة جاءت فقط من منصة Illumina ، فإن المدخلات إلى خط الأنابيب لدينا عبارة عن ملف SAM [25] ، مما يجعل من الممكن معالجة البيانات من أي نظام أساسي يمكن تحويل البيانات الخاصة به إلى تنسيق SAM. من السهل أيضًا تنفيذ عمليات مخصصة أخرى (على سبيل المثال ، إعادة معايرة نقاط الجودة الأساسية أو إعادة المحاذاة) قبل تطبيق طريقتنا. على الرغم من أن ملف تعريف خطأ التسلسل يختلف اختلافًا كبيرًا بين التقنيات المختلفة / المتصلين الأساسيين ، فإن طريقتنا لا تتطلب أي معرفة مسبقة بملف تعريف الخطأ ، حيث يتم استخراج جميع المعلومات ذات الصلة من مجموعة بيانات إعادة التسلسل بأكملها.

يمكن أن يشمل التطبيق الإضافي للطريقة تقدير التنميط الجيني القياسي للتسلسلات ثنائية الصبغيات. ومع ذلك ، يجب معالجة العديد من المشكلات ، بما في ذلك: كيفية تقدير معدل الخطأ عندما يتم اعتبار المتغايرات الزيجوت في الاعتبار كيفية التخلص من القراءات عندما تكون التغطية منخفضة وكيفية حساب درجة جودة الزيجوت متغايرة الزيجوت.

مشاكل أخرى في الكشف عن LLMs

خطأ التسلسل ليس هو المشكلة الوحيدة في اكتشاف LLM. يعد التلوث المتبادل مشكلة رئيسية أخرى ، خاصة عند التعامل مع أعداد كبيرة من العينات في وقت واحد. على الرغم من أن جزء التلوث عادةً ما يكون صغيرًا جدًا ، إلا أن النيوكليوتيدات المشتقة من عنصر التلوث الثانوي تتصرف تمامًا مثل LLM. وبالتالي ، من المستحيل التمييز بين أليل التلوث و LLM الحقيقي. هنا ، نقدم طريقة مباشرة لتحديد التلوث: بعد إنتاج قائمة LLM المحتملة ، يمكننا استنتاج التلوث بناءً على العدد الإجمالي للأليلات الثانوية (إذا تجاوزت بعض القيمة المتوقعة) ، أو التشابه مع عينات أخرى في نفس المكتبة ، أو في مكتبات أخرى ، أو في قواعد البيانات. على سبيل المثال ، مع بيانات تسلسل الجينوم mtDNA ، إذا تم اكتشاف أكثر من خمسة LLMs في عينة ، فسيتم الاشتباه في أنها خليط ، لأنه من غير المحتمل أن يأوي فرد واحد أكثر من خمسة مواضع غير متجانسة [1 ، 3 ، 12]. بالنسبة لمثل هذه الخلائط المشتبه بها ، نقوم بعد ذلك بفحص التسلسلات الأخرى من نفس المكتبة (وكذلك من المكتبات الأخرى المعدة في نفس الوقت) لتحديد ما إذا كان يمكن تفسير مكون LLM عن طريق خليط من عينة معينة. نستخدم أيضًا قواعد بيانات مثل Phylotree [26] لتحديد ما إذا كان من المحتمل أن تأتي الأليلات الثانوية من مجموعة هابلوغروب محددة. في دراستنا ، تمكنا من الكشف عن التلوث بنسبة 2 إلى 3٪ ، ويتم استرداد ما يقرب من نصف الأليلات الصغرى المتوقعة بدقة عند هذا المستوى بمتوسط ​​تغطية يبلغ حوالي 500 ×. هذا يشير إلى أنه سيكون من الممكن العثور على تلوث على مستوى أقل مع تغطية أعلى. ومع ذلك ، فإن القدرة على اكتشاف التلوث تعتمد على عدد المواضع المتغيرة بين العينات التي تساهم في الخليط: إذا كانت متشابهة جدًا ، فسيكون من الصعب جدًا معرفة ما إذا كانت LLM حقيقية أم تلوث. ستكون هناك حاجة لفحص المناطق الجينومية الأخرى.

تعد القراءات الكيميرية أيضًا مشكلة محتملة في التسلسل المتعدد ، حيث لا تأتي القراءات من العينة المستهدفة فحسب ، بل تأتي أيضًا من عينات أخرى في نفس مكتبة التسلسل. تسمح الفهارس المزدوجة باكتشاف القراءات الوهمية ، ومن خلال تطبيق فهارس مزدوجة في أربع مكتبات ، وجدنا أن 10 إلى 15٪ من القراءات تحتوي على فهارس غير متطابقة (الشكل 6). هذا أعلى بكثير من 0.3٪ التي تم الإبلاغ عنها سابقًا [22] ، ربما لأن كثافة الكتلة في دراستنا كانت أعلى بمقدار 1.5 ضعفًا منها في دراستهم وتم مضاعفة عدد أكبر من العينات (غير المتجانسة) في مكتباتنا. يعد تلوث الفهرس مصدرًا محتملاً آخر للقراءات الوهمية ، ولكن من غير المحتمل أن يكون عاملاً مساهماً في دراستنا لأن مؤشرات P5 التي لا مثيل لها تبدو مشتقة عشوائيًا من فهارس أخرى (الشكل 6). من خلال النظر في تكوين المكتبة في كل موقع ، وجدنا ما يصل إلى 70٪ تقريبًا من الأليل الصغير يمكن تفسيره بقراءات خيالية. على الرغم من أن جميع LLM ليست إيجابية كاذبة ، إلا أن القراءات الوهمية تظل مصدر قلق خطير ، وينصح باستخدام الفهارس المزدوجة.


شكر وتقدير

نشكر John M. Coffin و Richard A. Neher و Boris I. Shraiman على التعليقات والمناقشات المفيدة. تم دعم هذا العمل جزئيًا من قبل زمالة أبحاث الخريجين من مؤسسة العلوم الوطنية (BHG) ، وجمعية ماكس بلانك (O.H.) ، ومؤسسة جيمس إس ماكدونيل ، وصندوق هارفارد ميلتون (M. إ. تم دعمه من قبل المعهد الوطني للمنح الصحية R01AI 063926 (إلى IMR) و R37CA 089441 (إلى John M. Coffin). د. بدعم من المعاهد الوطنية للصحة المنحة R01GM 086793 (لبوريس آي شريمان). تم إجراء عمليات المحاكاة في هذه الورقة على مجموعة Odyssey بدعم من مجموعة الحوسبة البحثية بجامعة هارفارد.


استراتيجيات لتقليل الانجراف الجيني

محتوى برعاية يقدمه لك

أهمية الاستقرار الجيني في أبحاث الفئران

بالنسبة للباحث العادي في علوم الحياة ، قد تكون الخلفية الجينية للفأر فكرة لاحقة ، حتى لو كانت فكرة على الإطلاق. قد تكون أهم أولويات الباحث فهم المرض والنشر والحصول على التمويل. ومع ذلك ، لتحقيق هذه الأهداف بنجاح ، يجب أن يكون الحفاظ على الاستقرار الجيني أو منع الانجراف الجيني في مستعمرة الفئران ذا أهمية كبيرة.

فئران المختبر هي عناصر فريدة وحيّة في البحث العلمي تتغير على مدار حياتها ، والأهم من ذلك أنها تتغير من جيل إلى جيل. بعد كل شيء ، التغييرات الوراثية في تسلسل الحمض النووي هي أساس تنوع الأنواع وتطورها في البرية. حتى في غياب الضغط التطوري ، تحدث تغيرات في تسلسل الحمض النووي. للوهلة الأولى ، يبدو أن هذه الطفرات تقلبات صامتة وغير مهمة في التركيب الجيني للفرد. ومع ذلك ، يمكن أن تصبح هذه الطفرات التي تبدو غير مهمة مصدرًا لعدم قابلية إعادة الإنتاج التجريبية غير القابلة للتفسير.

إذن ، يواجه باحثو الفأر لغزًا. يتطلب توليد الفئران لأغراض البحث التكاثر. ولكن مع التكاثر يأتي الخطر الكامن لنشر التنوع الجيني وبالتالي نشر التنوع التجريبي. من تجربة إلى أخرى ومن منشور إلى آخر ، تنوع البيانات غير مفيد للتقدم العلمي.

الغرض من هذه الورقة هو تثقيف الباحثين في الفئران حول إمكانية تأثير الانجراف الجيني على تقدم البحث ، وتسليط الضوء على أفضل الممارسات لتقليل الانجراف ، وتقديم حلول لعكس الانجراف إذا نشأ في مستعمرة الفئران. يعد استخدام التسميات الرسمية الكاملة لسلالة الفئران والإبلاغ الدقيق عن معلومات التكاثر في المنشورات ومقترحات المنح من بعض الممارسات البسيطة التي يمكن للباحثين اتخاذها والتي تعزز قابلية التكاثر والاستخدام المسؤول للحيوانات.

كيف ينشأ الانجراف الجيني وانتشاره في مستعمرات الفئران

زواج الأقارب ، أو تزاوج الأخوة ، هو طريقة قوية لتقليل تغاير الزيجوت في كل موضع وراثي في ​​جينوم الفأر ، مما يسمح بالتوحيد في النمط الظاهري ويشكل الأساس للتكاثر التجريبي. يسمح تماثل الزيجوت الوراثي بمقارنة متغير واحد بين مجموعة تحكم ومجموعة تجريبية ، وبالتالي ، القدرة على عزو أي اختلافات في القراءة إلى هذا المتغير.

تمامًا مثل الأنواع الموجودة في البرية ، ستتغير مجموعتان من سلالات الفئران المختبرية الفطرية المعزولة عن بعضها البعض بمرور الوقت. قد تحدث الطفرات العفوية في شكل تعدد أشكال النوكليوتيدات المفردة (SNPs) ، والحذف ، والانعكاس ، والازدواج ، وغيرها من الأخطاء أثناء تكرار الحمض النووي والانقسام الاختزالي. هذه العملية من الطفرات العفوية التي تظهر أو تختفي أو تصبح ثابتة في مجموعة سكانية بشكل عشوائي تسمى الانجراف الجيني (Lee Silver ، 1995).

يختلف مقدار الانجراف الجيني الذي يحدث في أي مستعمرة نشطة ، ولكن من المتوقع أن يكون متكررًا إلى حد ما. يبلغ متوسط ​​جيل التكاثر 3-4 أشهر مع نضوج الفئران جنسياً حوالي 5-8 أسابيع من العمر. يولد النسل عادة بعد حوالي 3 أسابيع من التزاوج. بناءً على معدلات الطفرات العفوية المحسوبة من طفرات لون الغلاف التي تم قياسها في أكثر من مليون فأر ، قد تظهر طفرة نمطية واحدة كل 1.8 جيل تكاثر (دريك وآخرون ، 1998 راسل ورسل ، 1996).

خطر تكاثر فأر يحمل طفرة عفوية في الخط الجرثومي ، وبالتالي انتشار هذه الطفرة ، يكون أعلى في المستعمرات الصغيرة منه في المستعمرات الكبيرة (الشكل 1 أ). بالنسبة لأي طفرة سلالة جرثومية معينة في الفأر ، سيكون نصف نسلها تقريبًا متغاير الزيجوت لهذه الطفرة (الشكل 1 ب). في مستعمرات التربية الفطرية ، هناك احتمال بنسبة 25٪ أن تصبح هذه الطفرات ثابتة (متماثلة اللواقح) في السكان (Chamary and Hurst ، 2004 Drake et al. ، 1998).

الشكل 1. خطر انتشار طفرة تلقائية أعلى في المستعمرات الصغيرة مقابل المستعمرات الكبيرة. أ) احتمال استخدام فأر يحمل أي طفرة معينة (أزرق فاتح) للتكاثر أعلى في مستعمرة صغيرة منه في مستعمرة كبيرة. ب) في كل جولة تكاثر ، هناك احتمال بنسبة 25٪ أن تصبح الطفرة الجديدة أكثر رسوخًا في العشيرة. على سبيل المثال ، تتنبأ الوراثة المندلية بأن الجيل F1 سيتكون من 50٪ من النوع البري (رمادي) و 50٪ متغاير الزيجوت للطفرة (أزرق فاتح). إذا تم استخدام 2 متغاير الزيجوت بالصدفة كمربيين ، فإن الجيل F2 سيتكون من 25٪ من النوع البري ، و 50٪ من الزيجوت متغايرة الزيجوت ، و 25٪ متجانسة الزيجوت (الأزرق الداكن). يمكن أن يستمر هذا حتى يتم إصلاح المستعمرة بأكملها متماثلة اللواقح للطفرة (F3 ، F4). ومع ذلك ، يمكن أن ينجرف الجينوم في أي من الاتجاهين اعتمادًا على الأنماط الجينية للفئران المستخدمة في التكاثر - فاحتمال ثبات الطفرة يعادل احتمال فقدانها بالكامل من المستعمرة.

مؤشرات حدوث الانجراف الجيني: تسميات السلالة

الجدول 1. الرموز المختبرية الشائعة الموجودة في تسميات الفئران الفرعية. يخصص معهد أبحاث حيوانات المختبر (ILAR) ويحافظ على معرفات فريدة للمعاهد أو المختبرات أو المحققين الفرديين الذين ينشئون مستعمرات الفئران ويحافظون عليها.

السلالة الفرعية هي فرع من سلالة فطرية يُشتبه أو يُعرف أنها مختلفة وراثيًا عن المستعمرة الأم (www.informatics.jax.org/mgihome/nomen/strains.shtml#substrains). نظرًا لأن الانجراف الجيني قد يحدث بشكل مختلف في مجموعتين من أي سلالة فطرية معينة ، فإن تعيين السلالات الفرعية هو عنصر حاسم في التسمية. يتم تحديد السلالات الفرعية عن طريق إضافة رمز مختبر فريد يعينه معهد أبحاث الحيوانات المعملية (ILAR) (dels.nas.edu/global/ilar/Lab-Codes). يحدد كود المعمل المعهد أو المختبر أو المحقق الذي أنتج أو يحافظ على سلالة حيوانية معينة (الجدول 1). Because lab codes accumulate in the nomenclature, the strain’s genealogy is understood from the name alone. For example, strain C57BL/6NJ was maintained for many years at the National Institutes of Health (N) and is now distributed by The Jackson Laboratory (J) (الشكل 3). By extension, the substrain nomenclature gives a general indication that genetic variation between two strains exists.

Suspected genetic differences: Generation number

Figure 2. Substrain development. Substrains develop after 20 consecutive generations of inbreeding. While these labs have not surpassed 20 breeding generations individually, Lab A and Lab B are separated from each other by 20 generations. Appending laboratory codes to strain names can give a general indication of whether genetic drift has occurred in one substrain versus another.

Any strain that has been maintained separately from the parental strain for 20 consecutive inbred generations (

5-6 years) is suspected to carry genetic differences, and is therefore considered a substrain. Additionally, breeding generations are cumulative, such that if two labs obtain mice from the same common ancestor and breed for 10 generations, each lab has a different substrain from one another because the two strains are considered 20 generations apart (الشكل 2).

The very first inbred mouse strains (including C57BL/6, DBA, C3H, BALB, CBA, and others) used for biological research were established almost 100 years ago and continue to be heavily published today. Because these strains exceed 200 inbred generations and because multiple institutions worldwide breed them, a considerable amount of genetic drift has occurred over time in all of these strains. Because of genetic drift, it is possible that observations made in existing substrains differ from observations made in the parental inbred strains from which they were derived.

Known genetic differences: Substrain designation by observed phenotypic differences

Additionally, substrains are designated when a difference in phenotype is observed between two groups of inbred mice. However, unless these spontaneous mutations manifest obvious phenotypes, frequently after they become fixed homozygous in the colony, and attentive colony managers or researchers recognize something “off” about the mice, the mutations may be carried in a strain unnoticed for years. Thus, identifying drift may depend on individual labs asking questions whose answers happen to rely on such mutations, to recognize that “unexpected results” are more than just “failed experiments,” and later to identify the mutation that is responsible for the aberrant phenotype.

For example, the parental inbred strain C3H gave rise to two substrains from two Jackson Laboratory researchers, which for many years, did not seem to differ. Dr. Walter Heston bred the strain in the 1930’s (now C3H/HeJ). In 1952, Heston transferred some of his mice to another Jackson Laboratory researcher, Dr. Henry Outzen (now C3H/HeOuJ). In the late 1960s, Heston’s strain was found to be resistant to lipopolysaccharide (LPS), whereas Outzen’s strain remained sensitive.

Later, the mutation was mapped to Tlr4, a gene involved in pathogen recognition and innate immune system activation (Poltorak et al., 1998a Watson et al., 1978). By the time the C to A substitution at nucleotide 2342 was identified in Tlr4, it had already become fixed in the Heston substrain, likely between 1958 and 1965 (Poltorak et al., 1998b). Had Heston’s C3H substrain never been treated with LPS, it is possible that the Tlr4 mutation would not have been identified and conclusions involving basic immunology in these strains may have become highly controversial.

Known genomic sequences are substrain-specific

Aside from chance discoveries, the only way to definitively identify whether genetic drift has occurred is to sequence the strain and compare to reference genomes. A C57BL/6J female was the first mouse to be completely sequenced by the Mouse Genome Sequencing Consortium (Chinwalla et al., 2002), www.ensembl.org/Mus_musculus). To date, 15 other major inbred mouse strains have been fully sequenced, all of which are “J” substrains, the official ILAR laboratory code for The Jackson Laboratory (Adams et al., 2015), www.ensembl.org/Mus_musculus/Info/Strains) (الجدول 2).

An additional 20+ inbred strains have been sequenced using short-read approaches to identify SNPs, indels, and structural variations relative to the C57BL/6J mouse reference genome (Frazer et al., 2007 and www.sanger. ac.uk/science/data/mouse-genomes-project). Furthermore, known SNP data for specific substrains can be found and compared in the Mouse Phenome Database (MPD), a collaborative standardized collection of genotypic and phenotypic data on the most commonly published mouse strains (phenome.jax.org).

Table 2. Common laboratory codes found in mouse substrain nomenclature. The Institute for Laboratory Animal Research (ILAR) assigns and maintains unique identifiers for institutes, laboratories, or individual investigators who create and maintain mouse colonies.

Genetic background impacts research conclusions

As described earlier with the C3H example, substrains may acquire spontaneous mutations that have the potential to influence research conclusions. If these experiments are not properly controlled for, such as through use of appropriate substrain, disastrous consequences on experimental reproducibility may ensue. Whether these spontaneous mutations arise in a repository, from a vendor, or in individual laboratories, how can researchers know which is the “best” substrain to use for their experiments?

Unfortunately, there isn’t an easy answer. The best way to determine whether genetic background matters is to perform controlled, side-by-side experiments and compare. Since it is impossible to test every substrain that exists for a particular experimental readout, the next best way to understand the potential impact of genetic background on research conclusions is to rely on what other researchers have observed, in the form of peer-reviewed, published literature and to continue experiments that build on such knowledge using identical substrains.

استنتاج

Genetic drift is an inevitable reality in actively breeding mouse colonies and may deeply impact research conclusions and reproducibility. While genetic drift cannot be eliminated completely, colony management strategies can be implemented both in individual laboratories and in large mouse repositories and vendors to maintain genetic stability. Reproducibility and scientific discovery rely on careful reporting of complete mouse substrain 17


One gene, many mutations: Key that controls coat color in mice evolved nine times

For deer mice living in the Nebraska Sandhills, color can be the difference between life and death.

When the dark-coated mice first colonized the region, they stood out starkly against the light-colored, sandy soil, making them easy prey for predators. Over the next 8,000 years, however, the mice evolved a system of camouflage, with lighter coats, changes in the stripe on their tails, and changes in body pigment that allowed them to blend into their habitat.

Now Harvard researchers are using their example to answer one of the fundamental questions about evolution. Is it a process marked by large leaps -- single mutations that result in dramatic changes in an organism -- or is it the result of many smaller changes that accumulate over time?

As described in a March 15 paper in the journal علم, a team of researchers, including former Harvard postdoctoral fellow Catherine Linnen, now an assistant professor at the University of Kentucky, and led by Hopi Hoekstra, Harvard professor of organismic and evolutionary biology and molecular and cellular biology, were able to show that the changes in mouse coat color were the result not of a single mutation but of at least nine mutations within a single gene.

"The findings demonstrate how the cumulative effect of natural selection, acting on many small genetic changes, can produce rapid and dramatic change," said Linnen, the first author of the paper. "This helps us to understand, from a genetic perspective, the uncanny fit between so many organisms and their environments. By acting on many small changes, rather than a handful of large ones, natural selection can produce very finely honed adaptations."

Surprisingly, Hoekstra said, that honing occurred in a single gene.

The role of this gene, called agouti, in camouflage was first discovered by Linnen, Hoekstra, and colleagues in 2009, and it is responsible for changes in pigmentation in the coats of many animals. Every domesticated black cat, for example, has a DNA deletion in the gene.

What surprised Hoekstra and her team, however, wasn't that the gene was involved, but that each of the nine mutations were tied to a unique change in the animal's coats, that all the new mutations led to more camouflaging color, and that the mutations occurred in a relatively short, 8,000-year timeframe.

"Essentially, it seems as though these mutations -- each of which makes the mouse a little lighter and more camouflaged -- have accumulated over time," Hoekstra said.

Focusing on these mutations, researchers then examined the DNA of natural populations of the mice to determine whether the mutations are actually beneficial.

"For each of the mutations associated with color change, we also find a signal that's consistent with positive selection," Hoekstra said. "That implies that each of the specific changes to pigmentation is beneficial. This is consistent with the story we are telling, about how these mutations are fine-tuning this trait."

While the findings offer valuable insight into the way that natural selection operates, Hoekstra said they also highlight the importance of following research questions to their ultimate end.

"The question has always been whether evolution is dominated by these big leaps or smaller steps," she said. "When we first implicated the agouti gene, we could have stopped there and concluded that evolution takes these big steps as only one major gene was involved, but that would have been wrong. When we looked more closely, within this gene, we found that even within this single locus, there are, in fact, many small steps."

Going forward, Hoekstra said, her team hopes to understand the order in which the mutations happened, which would allow it to reconstruct how the mice changed over time.

"For evolutionary biologists, this is exciting because we want to learn about the past, but we only have data from the present to study it," she said. "This ability to go back in time and reconstruct an evolutionary path is very exciting, and I think this data set is uniquely suited for this type of time travel."

Taking the time to understand not only which genes are involved but which specific mutations may be driving natural selection, Hoekstra said, can give researchers a much fuller picture of not only the molecular mechanisms by which mutations alter traits, but also the evolutionary history of an organism.

"By doing this, we've discovered all kinds of new things," she said. "While we often think about changes happening in the entire genome, our results suggest that even within a very basic unit -- the gene -- we can see evidence for evolutionary fine-tuning."


The Model

We consider a large population of haploid individuals with time-dependent population size نر. The population dynamics are modeled as a time-inhomogeneous birth–death process with birth and death rates ب(ر, نر) و د(ر, نر):

The impact of the changes in the external environment on the population size is reflected in the explicit time-dependence of the rates on ر. The dependence on نر accounts for density-dependence [على سبيل المثال, logistic: ]. We call the growth parameter. Obviously, the expected change of نر over a small time interval dر reads

Consider now two alleles, a beneficial mutant allele أ and the ancestral (resident) allele أ, that segregate in the population at a single locus. Recurrent mutations in both directions are ignored. In general, birth and death rates might be different for residents and mutants. These rates can depend on time and on the (absolute) frequencies of both allelic types, allowing for general frequency-dependent selection. As a consequence, also the population dynamics depend on the allelic composition and cannot be described by Equation 1 anymore. We discuss this model in the زائدة. For the main part of the article, however, we assume that the rates are the same for mutants and residents and that all model parameters are independent of allele frequencies. This means in particular that selection is soft بمعنى آخر., changes in the allelic composition due to selection or drift do not interfere with the population dynamics. Population growth and decline of the polymorphic population are then correctly described by Equation 1.

In this setting, selection is modeled as competitive replacement between individuals, which does not change the population size, and is implemented as follows: At per capita rate ξ(ر, نر) + س(ر, نر), a mutant additionally reproduces and succeeds in replacing a randomly chosen individual from the population by its offspring. Residents do the same at rate ξ(ر, نر). Again, the selective advantage س(ر, نر) of the mutant may thus depend on the external environment (modeled by the dependence of س(ر, نر) on ر) and the population size (modeled by the dependence on نر). Changes in the number of mutants then occur at rates

The model corresponds to a continuous-time Moran model, but with a population size that may change in time. Putting ب(ر, نر) = د(ر, نر) = 0, ξ(ر, نر) = 1, and س(ر, نر) = س = const. reproduces the standard Moran model (Moran 1958a,b Novozhilov وآخرون. 2006). The free parameter ξ(ر, نر) has been introduced to our model to allow for easy interpolation to other models (see below) and additionally to make the analysis of density-dependent competition possible.

To further clarify the relation to other models, we calculate how the frequency of mutants xر := نر/نر changes over time. Let Δx be its change in an infinitesimal time interval dر. The expectation and the variance of Δx are calculated to be (4a) (4b) with the time-dependent variance effective population size (5) In the last step we approximated نر + 1 ≈ نر و نر − 1 ≈ نر (see section S3 of File S1 for the derivation of Equations 4a and 4b).

We see that the strength of drift, measured as , is proportional to the total rate of events in the model. The choice coincides with the strength of drift in the standard Moran model, while is consistent with the scaling in the Wright–Fisher model. In contrast to many diffusion or coalescent approaches, we do not rescale time with the effective population size (which would be impractical since itself depends on ر). Generation time in the continuous-time Moran model is defined as the inverse of the total death rate of an individual, , and may again depend on time in our model.


مراجع

Cabot EL, Davis AW, Johnson NA, Wu CI (1994). Genetics of reproductive isolation in the سيمولانس ذبابة الفاكهة clade: complex epistasis underlying hybrid male sterility. علم الوراثة 137: 175–189.

Coyne JA, Orr HA (2004). Speciation. Sinauer Associates Inc.: Sunderland, MA.

Gavrilets S (2003). Models of speciation: What have we learned in 40 years? تطور 57: 2197–2215.

Gavrilets S (2004). Fitness Landscapes and the Origin of Species. Princeton University Press: Princeton, New Jersey.

Gillespie JH (1984). Molecular evolution over the mutational landscape. تطور 38: 1116–1129.

Gillespie JH (1991). The Causes of Molecular Evolution. Oxford University Press: New York.

Haldane JBS (1927). A mathematical theory of natural and artificial selection, part V: selection and mutation. Proc Camb Phil Soc 28: 838–844.

Joyce P, Rokyta DR, Beisel CJ, Orr HA (2008). A general extreme value theory model for the adaptation of DNA sequences under strong selection and weak mutation. علم الوراثة 180: 1627–1643.

Kondrashov AS (2003). Accumulation of Dobzhansky–Muller incompatibilities within a spatially structured population. تطور 57: 151–153.

Muller HJ (1942). Isolation mechanisms, evolution and temperature. Biol Symp 6: 71–125.

Navarro A, Barton NH (2003). Accumulating postzygotic isolation genes in parapatry: a new twist on chromosomal speciation. تطور 57: 447–459.

Nei M (1976). Mathematical models of speciation and genetic distance. In: Karlin S, Nevo E (eds). Population genetics and ecology. Academic Press Inc.: New York.

Orr HA (1995). The population genetics of speciation: the evolution of hybrid incompatibilities. علم الوراثة 139: 1805–1813.

Orr HA (2003). The distribution of fitness effects among beneficial mutations. علم الوراثة 163: 1519–1526.

Orr HA (2005). The probability of parallel evolution. تطور 59: 216–220.

Orr HA, Masly JP, Phadnis N (2007). Speciation in ذبابة الفاكهة: from phenotypes to molecules. J Hered 98: 103–110.

Wood TE, Burke JM, Rieseberg LH (2005). Parallel genotypic evolution: when evolution repeats itself. جينيتيكا 123: 157–170.


شاهد الفيديو: الطفرات (يونيو 2022).


تعليقات:

  1. Daijin

    أنا أعتبر، أنك لست على حق. أقترح ذلك لمناقشة. اكتب لي في PM.

  2. Kerrigan

    أوصي بزيارة الموقع مع عدد كبير من المقالات حول الموضوع الذي يثير اهتمامك.

  3. Shajind

    ارتكاب الاخطاء. اكتب لي في رئيس الوزراء ، ناقشها.

  4. Eadwardsone

    لقد فوجئت بسرور كيف يكتب المؤلف بسهولة عن كل ما يثير اهتمامه. هناك شيء في هذا!

  5. Daveon

    في ذلك شيء ما. أصبح كل شيء واضحًا بالنسبة لي ، أشكر المعلومات.



اكتب رسالة