معلومة

17.3: تعظيم التوقع - علم الأحياء

17.3: تعظيم التوقع - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

الفكرة الرئيسية وراء EM

لقد حصلنا على مجموعة من التسلسلات مع افتراض أن الزخارف غنية بها. لنفترض أن Z هي المصفوفة التي فيها Zاي جاي يتوافق مع احتمال أن يبدأ مثيل الحافز في الموضع j في التسلسل i (يظهر رسم بياني للتوزيعات الاحتمالية الملخصة في Z في الشكل 17.8). لذلك تعتمد هذه الخوارزميات على نهج تكراري أساسي: نظرًا لطول الشكل L والمصفوفة الأولية Z ، يمكننا استخدام مواضع البداية لتقدير الفكرة ، وبالتالي استخدام الحافز الناتج لإعادة تقدير مواضع البداية ، والتكرار فوق هذه خطوتين حتى التقارب على فكرة.

الخطوة E: تقدير Zاي جاي من PWM

الخطوة 1: التهيئة تتمثل الخطوة الأولى في EM في إنشاء مصفوفة وزن احتمالية أولية (PWM). يصف PWM تردد كل نوكليوتيد في كل موقع في الشكل. في 17.5 ، هناك مثال على PWM. في هذا المثال ، نفترض أن الشكل يتكون من ثماني قواعد.

إذا تم إعطاؤك مجموعة من التسلسلات المحاذية وموقع العناصر المشتبه بها بداخلها ، فسيتم العثور على PWM عن طريق حساب تردد كل قاعدة في كل موضع من الحافز المشتبه به. يمكننا تهيئة PWM عن طريق اختيار مواقع البدء بشكل عشوائي.

نشير إلى PWM كـ pك، أين صك هو احتمال حدوث القاعدة c في الموضع k من الشكل. ملاحظة: إذا كان هناك احتمال صفري ، فمن الجيد عمومًا إدراج أعداد زائفة في احتمالاتك. يسمى PWM أيضًا مصفوفة الملف الشخصي. بالإضافة إلى PWM ، نحتفظ أيضًا بتوزيع الخلفية pك، ك = 0 ، توزيع القواعد ليس في الشكل.

الخطوة الثانية: التوقع في خطوة التوقع ، نقوم بإنشاء متجه Zij يحتوي على احتمال بدء الفكرة في الموضع j في التسلسل i. في EM ، يعطينا المتجه Z طريقة لتصنيف كل النيوكليوتيدات في التسلسلات ويخبرنا ما إذا كانت جزءًا من الفكرة أم لا. يمكننا حساب Zاي جاي باستخدام قاعدة بايز. هذا يبسط إلى:

[Z_ {ij} ^ {t} = frac { operatorname {Pr} ^ {t} left (X_ {i} mid Z_ {ij} right) operatorname {Pr} ^ {t} left (Z_ {ij} = 1 right)} { Sigma_ {k = 1} ^ {L-W + 1} operatorname {Pr} ^ {t} left (X_ {i} mid Z_ {ij} = 1 right) operatorname {Pr} ^ {t} left (Z_ {ik} = 1 right)} nonumber ]

حيث ( operatorname {Pr} ^ {t} left (X_ {i} mid Z_ {ij} = 1 right) = operatorname {Pr} left (X_ {i} mid Z_ {ij} = 1 ، p right) ) يعرف بأنه

هذا هو احتمال التسلسل i نظرًا لأن الشكل يبدأ عند الموضع j. يتوافق المنتجان الأول والأخير مع احتمال أن تأتي التسلسلات التي تسبق النموذج المرشح وتتبعه من بعض توزيعات احتمالية الخلفية بينما يتوافق المنتج الأوسط مع احتمال أن يكون مثال النموذج المرشح قد جاء من توزيع احتمالية لعزر. في هذه المعادلة ، نفترض أن طول التسلسل L وأن الشكل له طول W.

الخطوة: إيجاد أكبر احتمال ممكن من بداية المواقف Zij

الخطوة 3: التعظيم بمجرد أن نحسب Zt ، يمكننا استخدام النتائج لتحديث كل من PWM وتوزيع احتمالية الخلفية. يمكننا تحديث PWM باستخدام المعادلة التالية

الخطوة 4: كرر الخطوتين 2 و 3 حتى التقارب.

إحدى الطرق الممكنة لاختبار ما إذا كانت مصفوفة ملف التعريف قد تقاربت هي قياس مقدار تغير كل عنصر في PWM بعد تعظيم الخطوة. إذا كان التغيير أقل من العتبة المختارة ، فيمكننا إنهاء الخوارزمية. EM خوارزمية حتمية وتعتمد كليًا على نقاط البداية الأولية لأنها تستخدم متوسطًا على توزيع الاحتمالات الكامل. لذلك يُنصح بإعادة تشغيل الخوارزمية بمواضع بداية أولية مختلفة لمحاولة تقليل فرصة التقارب عند الحد الأقصى المحلي الذي لا يمثل الحد الأقصى العالمي والحصول على فكرة جيدة عن مساحة الحل.


تتيح خوارزمية تعظيم التوقعات النمذجة البيئية الدقيقة باستخدام بيانات تسلسل الميكروبيوم الطولي

خلفية: ديناميكيات المجتمعات الميكروبية مدفوعة بمجموعة من التفاعلات من التعايش إلى العلاقات بين المفترس والفريسة ، ومعظمها غير مفهوم جيدًا. مع التوافر المتزايد لبيانات التنميط التصنيفية للميكروبيوم عالية الإنتاجية ، أصبح من الممكن الآن التعرف بشكل مباشر على النماذج البيئية التي تحدد بوضوح التفاعلات الميكروبية وتشرح ديناميكيات المجتمع. إن قابلية تطبيق هذه الأساليب محدودة للغاية بسبب عدم وجود قياسات دقيقة لكثافة الخلايا المطلقة (الكتلة الحيوية).

أساليب: نقدم نهجًا حسابيًا جديدًا يحل هذا القيد الرئيسي في الاستدلال على نماذج Lotka-Volterra المعممة (gLVMs) عن طريق اقتران تقدير الكتلة الحيوية واستدلال النموذج مع خوارزمية تعظيم التوقعات (BEEM).

نتائج: يتفوق BEEM على أحدث الأساليب لاستنتاج gLVMs ، مع التخلص في الوقت نفسه من الحاجة إلى بيانات الكتلة الحيوية التجريبية الإضافية كمدخلات. سمح لنا تطبيق BEEM على مجموعات البيانات العامة التي تعذر الوصول إليها سابقًا (بسبب نقص بيانات الكتلة الحيوية) ببناء نماذج بيئية للمجتمعات الميكروبية في الأمعاء البشرية على أساس فردي ، وكشف عن ديناميكيات شخصية وأنواع أساسية.

الاستنتاجات: يعالج BEEM عنق الزجاجة الرئيسي في "تحليل الأنظمة" للميكروبات من خلال تمكين الاستدلال الدقيق للنماذج البيئية من بيانات التسلسل عالية الإنتاجية دون الحاجة إلى قياسات الكتلة الحيوية التجريبية.

بيان تضارب المصالح

الكتاب تعلن أنه ليس لديهم المصالح المتنافسة.

الأرقام

ضوضاء في الكتلة الحيوية المحددة تجريبياً ...

الضوضاء في الكتلة الحيوية المحددة تجريبياً تشوه بشدة تقدير معلمة gLVM. أ مخطط مبعثر ...

متانة تقدير المعلمات مع ...

متانة تقدير المعلمة مع BEEM. أ نتائج بعدد متزايد من ...

توافق الكتلة الحيوية المقدرة بـ BEEM مع ...

توافق الكتلة الحيوية المقدرة بـ BEEM مع القياسات التجريبية ذات المعيار الذهبي. أ قطع الأراضي المبعثرة المجهزة ...

تحليل BEEM للأمعاء لمدة عام ...

تحليل BEEM لمجموعات بيانات السلاسل الزمنية الميكروبية للأمعاء على مدار العام. أ , ب تقدير BEEM ...


Ceppellini ، R. ، Siniscalco ، M. & amp Smith ، C.A. آن. همم. جينيه. 20, 97–115 (1955).

هارتلي ، هـ. القياسات الحيوية 14, 174–194 (1958).

Baum، L.E.، Petrie، T.، Soules، G. & amp Weiss، N. آن. رياضيات. ستات. 41, 164–171 (1970).

ديمبستر ، A.P. ، Laird ، N.M. & amp Rubin ، D.B. J.R Stat. شركة سر. ب 39, 1–38 (1977).

D'haeseleer ، P. نات. التكنولوجيا الحيوية. 23, 1499–1501 (2005).

Lawrence، CE & amp Reilly، A.A. البروتينات 7, 41–51 (1990).

Excoffier، L. & amp Slatkin، M. مول. بيول. Evol. 12, 921–927 (1995).

كروغ ، أ ، براون ، م ، ميان ، إ.س. ، شولاندر ، ك. & أمبير هوسلر ، د. جيه مول. بيول. 235, 1501–1543 (1994).

إيدي ، س. & amp Durbin، R. الدقة الأحماض النووية. 22, 2079–2088 (1994).

سيغال ، إ. ، يلنسكي ، آر. وأمب كولر ، د. المعلوماتية الحيوية 19، i273 – i282 (2003).

سلاتكين ، M. & amp Excoffier ، L. الوراثة 76, 377–383 (1996).

Nesvizhskii، A.I.، Keller، A.، Kolker، E. & amp Aebersold، R. شرجي. تشيم. 75, 4646–4658 (2003).

دي بييرو ، أ. IEEE Trans. ميد. التصوير 14, 132–137 (1995).


تركيب نموذج خليط من خلال تعظيم التوقع لاكتشاف الزخارف في البوليمرات الحيوية

تكتشف الخوارزمية الموصوفة في هذا البحث عنصرًا واحدًا أو أكثر في مجموعة من تسلسلات الحمض النووي أو البروتين باستخدام تقنية تعظيم التوقع لملاءمة نموذج خليط محدود مكون من عنصرين مع مجموعة التسلسلات. تم العثور على الزخارف المتعددة عن طريق ملاءمة نموذج خليط للبيانات ، والمحو الاحتمالي لوقائع النموذج الذي تم العثور عليه ، وتكرار العملية للعثور على الزخارف المتتالية. تتطلب الخوارزمية فقط مجموعة من التسلسلات غير المحاذاة ورقمًا يحدد عرض الزخارف كمدخلات. تقوم بإرجاع نموذج لكل فكرة وعتبة يمكن استخدامها معًا كمصنف Bayes الأمثل للبحث عن تكرارات الحافز في قواعد البيانات الأخرى. تقدر الخوارزمية عدد المرات التي يحدث فيها كل عزر في كل تسلسل في مجموعة البيانات وتنتج محاذاة لوقائع الشكل. الخوارزمية قادرة على اكتشاف العديد من الأشكال المختلفة بأعداد مختلفة من التكرارات في مجموعة بيانات واحدة.


SCINA: خوارزمية فرعية شبه خاضعة للإشراف لخلايا مفردة وعينات مجمعة

سمح التقدم في تسلسل الحمض النووي الريبي أحادي الخلية (scRNA-Seq) بإجراء تحليلات شاملة لبيانات الخلية المفردة. ومع ذلك ، فإن التحليلات الحالية لبيانات scRNA-Seq تبدأ عادةً من التجميع أو التصور غير الخاضع للإشراف. تتجاهل هذه الأساليب المعرفة السابقة بالنصوص والتراكيب المحتملة للبيانات. علاوة على ذلك ، يعتمد تحديد هوية الخلية بشكل كبير على التفتيش البشري الشخصي وربما غير الدقيق بعد ذلك. لمواجهة هذه التحديات التحليلية ، قمنا بتطوير SCINA (تحديد الفئة شبه الخاضع للإشراف والتعيين) ، وهو نموذج شبه خاضع للإشراف يستغل التواقيع الجينية المحددة مسبقًا باستخدام خوارزمية تعظيم التوقعات (EM). SCINA قابلة للتطبيق على scRNA-Seq وبيانات التدفق الخلوي / CyTOF ، بالإضافة إلى البيانات الأخرى ذات التنسيق المماثل. لقد طبقنا SCINA على مجموعة واسعة من مجموعات البيانات ، وأظهرنا دقتها واستقرارها وكفاءتها ، والتي تجاوزت الأساليب الأكثر شيوعًا غير الخاضعة للإشراف. اكتشفت SCINA مرحلة وسيطة من الخلايا الدبقية قليلة التغصن من بيانات scRNA-Seq في دماغ الفأر. اكتشف SCINA أيضًا تغيرات في عدد الخلايا المناعية في بيانات القياس الخلوي في نموذج فأر معدّل وراثيًا. علاوة على ذلك ، كان أداء SCINA جيدًا مع بيانات التعبير الجيني بالجملة. على وجه التحديد ، حددنا فصيلة جديدة من ورم الكلى تشبه الأورام التي تعاني من نقص FH (FHD) ، والتي نشير إليها على أنها أورام تشبه FHD (FHDL). بشكل عام ، يوفر SCINA تقدمًا منهجيًا ورؤى بيولوجية من وجهات نظر مختلفة عن طرق التحليل التقليدية.

الكلمات الدالة: CyTOF HLRCC RCC SCINA fumarase fumarate hydratase renal cell carcinoma single cell RNA-seq.

بيان تضارب المصالح

الكتاب تعلن أي تضارب في المصالح. لم يكن للممولين أي دور في تصميم الدراسة في جمع البيانات أو تحليلها أو تفسيرها في كتابة المخطوطة أو في قرار نشر النتائج.


دعم المعلومات

الشكل S1: استجابة BOLD الخاصة بالطبقة في V1 للمحفزات المعروضة والمتوقعة بشكل منفصل للمجموعات السكانية الفرعية voxel التي تفضل (الخطوط الصلبة والأشكال المملوءة) وعدم تفضيل (الخطوط المتقطعة والأشكال المفتوحة) الاتجاه الحالي.

تكون استجابات BOLD أعلى في المجموعات السكانية الفرعية التي تفضل الاتجاه (المتوقع) في جميع الطبقات للمحفزات المقدمة والطبقات العميقة فقط للمنبهات المتوقعة ولكن المحذوفة. لاحظ أن ردود الحذف سلبية بشكل عام. من المحتمل أن يكون هذا نتيجة حقيقة أن الدراسة الحالية استخدمت تصميمًا سريعًا يتعلق بالحدث دون فترة أساسية واضحة. على وجه التحديد ، في هذا النوع من التصميم ، يكون خط الأساس هو الإشارة المتوسطة بشكل فعال ، وعندما يتم حذف الحافز ، أثناء التشغيل الذي يتم فيه تقديم المحفزات معظم الوقت ، من المرجح أن تكون الإشارة في V1 أقل من المتوسط. بشكل أساسي ، يعد هذا النوع من التصميم مثاليًا لاكتشاف الاختلافات بين الظروف (التحفيز مقابل الإغفال أو التحفيز / الإغفال 45 درجة مقابل التحفيز / الإغفال 135 درجة) ، والذي كان اهتمامنا الرئيسي هنا ، ولكنه دون المستوى الأمثل لاكتشاف التأثيرات الرئيسية لظروف فردية ( على سبيل المثال ، التحفيز مقابل خط الأساس أو الإغفال مقابل خط الأساس). تمثل النقاط المشاركين الفرديين ، وتشير الأشكال المنحنية إلى الكثافة. تشير أشرطة الخطأ إلى SEM داخل الموضوع. البيانات متاحة في osf.io/k54p3. BOLD ، SEM المعتمد على مستوى الأكسجين في الدم ، الخطأ المعياري لمتوسط ​​V1 ، القشرة البصرية الأولية.

الشكل S2: استجابة BOLD الخاصة بطبقة معينة في V1 للمحفزات المقدمة والمتوقعة بناءً على دورات وقت فوكسل الخام.

تم حذف تسوية دورات وقت فوكسل وترجيحها عن طريق انتقائية التوجيه في تحليل التحكم هذا. (أ) استجابة BOLD الخاصة بالاتجاه إلى حواجز شبكية (زرقاء) ومتوقعة (برتقالية) متوقعة في طبقات مختلفة من V1 ، متوسّطة على المهام. (ب) استجابة BOLD الخاصة بالاتجاه للمهام المتوقعة - ولكن المحذوفة (البرتقالية ، اللوحة العلوية) والمقدمة (الزرقاء ، اللوحة السفلية) ، بشكل منفصل للاتجاه (الخطوط الصلبة والأشكال المعبأة) والتباين (الخطوط المتقطعة ، والأشكال المفتوحة). تمثل النقاط المشاركين الفرديين ، وتشير الأشكال المنحنية إلى الكثافة. تشير أشرطة الخطأ إلى SEM داخل الموضوع. البيانات متاحة في osf.io/k54p3. BOLD ، SEM المعتمد على مستوى الأكسجين في الدم ، الخطأ المعياري لمتوسط ​​V1 ، القشرة البصرية الأولية.

الشكل S3: استجابة BOLD الخاصة بطبقة معينة في V1 للمحفزات المقدمة والمتوقعة المحددة بواسطة الاستيفاء بدلاً من GLM المكاني.

(أ) استجابة BOLD الخاصة بالاتجاه إلى حواجز شبكية (زرقاء) ومتوقعة ولكن محذوفة (برتقالية) في طبقات مختلفة من V1 ، متوسّطة على المهام. (ب) استجابة BOLD الخاصة بالاتجاه للمهام المتوقعة - ولكن المحذوفة (البرتقالية ، اللوحة العلوية) والمقدمة (الزرقاء ، اللوحة السفلية) ، بشكل منفصل للاتجاه (الخطوط الصلبة والأشكال المعبأة) والتباين (الخطوط المتقطعة ، والأشكال المفتوحة). تمثل النقاط المشاركين الفرديين ، وتشير الأشكال المنحنية إلى الكثافة. تشير أشرطة الخطأ إلى SEM داخل الموضوع. البيانات متاحة في osf.io/k54p3. BOLD ، GLM المعتمد على مستوى الأكسجين في الدم ، النموذج الخطي العام SEM ، الخطأ المعياري لمتوسط ​​V1 ، القشرة البصرية الأولية.

الشكل S4: استجابة BOLD الخاصة بطبقة معينة في V1 للعرض المقدم والمتوقع كدالة لعدد وحدات البكسل المختارة.

(أ) استجابة BOLD الخاصة بالاتجاه إلى حواجز شبكية متوقعة ولكن محذوفة في طبقات مختلفة من V1 ، متوسّطة على المهام. (ب) استجابة BOLD الخاصة بالاتجاه إلى حواجز شبكية مقدمة في طبقات مختلفة من V1 ، متوسطها على المهام. تشير أشرطة الخطأ إلى SEM داخل الموضوع. البيانات متاحة في osf.io/k54p3. BOLD ، SEM المعتمد على مستوى الأكسجين في الدم ، الخطأ المعياري لمتوسط ​​V1 ، القشرة البصرية الأولية.

S5 Fig. تسجيل الحدود القشرية لتعني EPI لجميع المشاركين.

تظهر التسجيلات بعد تسجيل الجسم الصلب فقط (BBR) ، وكذلك بعد RBR. زاد RBR المطلق GM-WM التباين (ج) في جميع المشاركين. تبرز الأسهم المواقع التي قام فيها RBR بتحسين التسجيل. BBR ، التسجيل المعتمد على الحدود EPI ، التصوير المستوي بالصدى GM ، المادة الرمادية RBR ، تسجيل الحدود العودية WM ، المادة البيضاء.

شكل S6 رسم توضيحي لطريقة GLM الزمنية.

نموذج نموذج والبيانات المعروضة لمشارك واحد (P1) و 1 ROI (V1 ، 135 درجة مفضلين voxels). اللوحة اليسرى ، العلوية: المنحدرات المستخدمة في GLM الزمني. تشير الدورات الزمنية الملونة إلى عوامل الانحدار لشروط الاهتمام الأربعة ، وتشير دورات الوقت الرمادي إلى عوامل الانحدار المزعجة (أي حركة الرأس). على اليسار ، 3 لوحات سفلية: دورات زمنية للرنين المغناطيسي الوظيفي في كل من طبقات GM الثلاث (رمادي صلب) ودورات زمنية مناسبة لـ GLM (أسود متقطع). اليمين ، 3 لوحات سفلية: تقديرات المعلمات للمنحدرات الأربعة ذات الأهمية ، وتحديد سعة استجابة BOLD التي تثيرها الشروط الأربعة. تشكل تقديرات المعلمات النتائج الرئيسية كما هو موضح في الشكل 3. البيانات متوفرة على osf.io/k54p3. BOLD ، الرنين المغناطيسي الوظيفي المعتمد على مستوى الأكسجين في الدم ، التصوير بالرنين المغناطيسي الوظيفي GLM ، النموذج الخطي العام GM ، المادة الرمادية ROI ، المنطقة محل الاهتمام.


شاهد الفيديو: An introduction to Gibbs sampling (يونيو 2022).


تعليقات:

  1. Launder

    نعم ، تبدو جذابة

  2. Yozshujind

    رسالة رائعة

  3. Darroll

    من الصعب معرفة ذلك.

  4. Maclaren

    يوافق على



اكتب رسالة