دانشمندان موتور جستجوی ژنوم ساختند

توالییابی DNA امروز یکی از مهمترین حوزههای علمی جهان است؛ حوزهای که بنیان پیشرفتهای بزرگ در شناخت علل ژنتیکی سرطان، بیماریهای عصبی تخریبی، دیابت و دهها اختلال دیگر شده است. اما یکی از چالشهای اساسی این حوزه انباشت عظیم دادههاست. با افزایش سرعت و فراگیری توالییابی، پایگاههایی مانند آرشیو خوانش توالی آمریکا (SRA) و آرشیو اروپایی نوکلئوتیدها (ENA) اکنون میزبان پتابایتها داده ژنتیکی هستند؛ حجمی تقریبا برابر با تمام متون موجود در اینترنت. تحلیل این دادهها و حتی دسترسی به آنها به مشکلی جدی تبدیل شده است.
به گزارش برنا، اکنون پژوهشگران ETH زوریخ راهحلی اساسی ارائه کردهاند: موتور جستجوی ژنوم با نام MetaGraph؛ سیستمی که این انبوه اطلاعات پراکنده را به یک پایگاه واحد، فشرده و قابل جستوجو تبدیل میکند. طبق مقاله منتشرشده در ژورنال Nature این موتور جستوجو اکنون شامل ۶۰۰ میلیون توالی متمایز و ۲۱ میلیون گیگابایت داده توالییابی است.
پیشرفتی بر پایه دههها توسعه در فناوری توالییابی
این پیشرفت تازه بر شانههای دستاوردهای تاریخی این حوزه بنا شده است: از روش زنجیرهقطعکنی فرد سانگر در ۱۹۷۷ تا فناوریهای نسل جدید توالییابی که امکان شناسایی سریع ویروسها، تعیین ساختار ژنومی SARS-CoV-۲ و حتی پروژههایی مانند احیای ژنتیکی گرگ آمریکایی را فراهم کردهاند.
گنار رتش، استاد علوم داده ETH، MetaGraph را گوگل DNA توصیف میکند؛ ابزاری که میتواند پژوهشهای ژنتیکی را با سرعتی بیسابقه جلو ببرد.
چگونه MetaGraph دادههای عظیم ژنومی را کوچک و قابل جستوجو میکند؟
توسعه MetaGraph از سال ۲۰۲۰ آغاز شده و نقطه قوت آن، توانایی فشردهسازی ۳۰۰ برابری دادهها و تبدیل آنها به نمایههای جستجوی متنکامل است.
مراحل پردازش دادهها در MetaGraph:
• دریافت دادههای خام DNA/RNA
• تصحیح خطا و ساخت نمودارهای ژنتیکی بهینه
• ادغام نمودارها و تشکیل نمایه واحد
• حذف تکرارها با استفاده از گرافهای ریاضی پیشرفته
• فشردهسازی نهایی و ایجاد پایگاه جستوجو
این فرایند باعث شده پایگاههای عظیمی مانند GTEx و TCGA که هرکدام حدود ۱۰۰ ترابایت داده داشتند، به ۱۰ گیگابایت کاهش یابند.
این مجموعه اکنون شامل توالیهای ویروسها، باکتریها، قارچها، گیاهان و انسان است؛ از جمله میکروبیوم روده انسان و دادههای متازوآ. دادههای متاژنوم خام و مجموعههای کلیدی دیگر نیز افزوده شدهاند.
بیشتر بخوانید
مزیتهای کلیدی MetaGraph
۱. دیگر نیازی به دانلود دادههای عظیم نیست
پژوهشگران بدون دریافت فایلهای چندترابایتی، میتوانند مستقیماً در پایگاه جستوجو کنند.
۲. هزینه بسیار پایین
اکنون کل دادههای عمومی توالییابی زیستی جهان روی چند هارد معمولی جا میگیرد.
در حال حاضر نیمی از دادههای عمومی جهان وارد MetaGraph شده است و تیم ETH اعلام کرده بقیه تا پایان ۲۰۲۵ افزوده خواهد شد. این سیستم کاملا مقیاسپذیر است و حتی با چند برابر شدن دادهها، سرعت جستوجو افت نخواهد کرد.
آندره کاهلس، عضو تیم Bioinformatics ETH میگوید: در روزهای اول گوگل هم نمیدانست موتور جستوجو دقیقا به چه کار میآید. با ادامه رشد سریع توالییابی DNA ممکن است در آینده شناسایی گیاهان روی بالکن خانههایمان هم عادی شود.
این ابزار میتواند توسعه واکسنها، مطالعه تکامل، بررسی ژنوم ویروسها، و تحلیل موجوداتی مانند کرمهای خاکی را بهمراتب سریعتر، دقیقتر و ارزانتر کند.
انتهای پیام/
Authors: صاحبخبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری
