پرینت

دانشمندان موتور جستجوی ژنوم ساختند

on .

دانشمندان موتور جستجوی ژنوم ساختند

توالی‌یابی DNA امروز یکی از مهم‌ترین حوزه‌های علمی جهان است؛ حوزه‌ای که بنیان پیشرفت‌های بزرگ در شناخت علل ژنتیکی سرطان، بیماری‌های عصبی تخریبی، دیابت و ده‌ها اختلال دیگر شده است. اما یکی از چالش‌های اساسی این حوزه انباشت عظیم داده‌هاست. با افزایش سرعت و فراگیری توالی‌یابی، پایگاه‌هایی مانند آرشیو خوانش توالی آمریکا (SRA) و آرشیو اروپایی نوکلئوتید‌ها (ENA) اکنون میزبان پتابایت‌ها داده ژنتیکی هستند؛ حجمی تقریبا برابر با تمام متون موجود در اینترنت. تحلیل این داده‌ها و حتی دسترسی به آنها به مشکلی جدی تبدیل شده است.

به گزارش برنا، اکنون پژوهشگران ETH زوریخ راه‌حلی اساسی ارائه کرده‌اند: موتور جستجوی ژنوم با نام MetaGraph؛ سیستمی که این انبوه اطلاعات پراکنده را به یک پایگاه واحد، فشرده و قابل جست‌و‌جو تبدیل می‌کند. طبق مقاله منتشرشده در ژورنال Nature این موتور جست‌و‌جو اکنون شامل ۶۰۰ میلیون توالی متمایز و ۲۱ میلیون گیگابایت داده توالی‌یابی است.

پیشرفتی بر پایه دهه‌ها توسعه در فناوری توالی‌یابی

این پیشرفت تازه بر شانه‌های دستاورد‌های تاریخی این حوزه بنا شده است: از روش زنجیره‌قطع‌کنی فرد سانگر در ۱۹۷۷ تا فناوری‌های نسل جدید توالی‌یابی که امکان شناسایی سریع ویروس‌ها، تعیین ساختار ژنومی SARS-CoV-۲ و حتی پروژه‌هایی مانند احیای ژنتیکی گرگ آمریکایی را فراهم کرده‌اند.

گنار رتش، استاد علوم داده ETH، MetaGraph را گوگل DNA توصیف می‌کند؛ ابزاری که می‌تواند پژوهش‌های ژنتیکی را با سرعتی بی‌سابقه جلو ببرد.

چگونه MetaGraph داده‌های عظیم ژنومی را کوچک و قابل جست‌و‌جو می‌کند؟

توسعه MetaGraph از سال ۲۰۲۰ آغاز شده و نقطه قوت آن، توانایی فشرده‌سازی ۳۰۰ برابری داده‌ها و تبدیل آنها به نمایه‌های جستجوی متن‌کامل است.

مراحل پردازش داده‌ها در MetaGraph:

• دریافت داده‌های خام DNA/RNA

• تصحیح خطا و ساخت نمودار‌های ژنتیکی بهینه

• ادغام نمودار‌ها و تشکیل نمایه واحد

• حذف تکرار‌ها با استفاده از گراف‌های ریاضی پیشرفته

• فشرده‌سازی نهایی و ایجاد پایگاه جست‌و‌جو

این فرایند باعث شده پایگاه‌های عظیمی مانند GTEx و TCGA که هرکدام حدود ۱۰۰ ترابایت داده داشتند، به ۱۰ گیگابایت کاهش یابند.

این مجموعه اکنون شامل توالی‌های ویروس‌ها، باکتری‌ها، قارچ‌ها، گیاهان و انسان است؛ از جمله میکروبیوم روده انسان و داده‌های متازوآ. داده‌های متاژنوم خام و مجموعه‌های کلیدی دیگر نیز افزوده شده‌اند.

بیشتر بخوانید

مزیت‌های کلیدی MetaGraph

۱. دیگر نیازی به دانلود داده‌های عظیم نیست

پژوهشگران بدون دریافت فایل‌های چندترابایتی، می‌توانند مستقیماً در پایگاه جست‌و‌جو کنند.

۲. هزینه بسیار پایین

اکنون کل داده‌های عمومی توالی‌یابی زیستی جهان روی چند هارد معمولی جا می‌گیرد.

در حال حاضر نیمی از داده‌های عمومی جهان وارد MetaGraph شده است و تیم ETH اعلام کرده بقیه تا پایان ۲۰۲۵ افزوده خواهد شد. این سیستم کاملا مقیاس‌پذیر است و حتی با چند برابر شدن داده‌ها، سرعت جست‌و‌جو افت نخواهد کرد.

آندره کاهلس، عضو تیم Bioinformatics ETH می‌گوید: در روز‌های اول گوگل هم نمی‌دانست موتور جست‌و‌جو دقیقا به چه کار می‌آید. با ادامه رشد سریع توالی‌یابی DNA ممکن است در آینده شناسایی گیاهان روی بالکن خانه‌هایمان هم عادی شود.

این ابزار می‌تواند توسعه واکسن‌ها، مطالعه تکامل، بررسی ژنوم ویروس‌ها، و تحلیل موجوداتی مانند کرم‌های خاکی را به‌مراتب سریع‌تر، دقیق‌تر و ارزان‌تر کند.

انتهای پیام/

Authors: صاحب‌خبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری

آخرین اخبار چند رسانه ای