С помощта на нов алгоритъм за дълбоко обучение, наречен LucaProt, изследователите идентифицират 161 979 „скрити“ вида РНК вируси, включително 70 458, които досега не са били известни на науката. Геномите на повечето от тези видове вируси, чиито последователности са наречени „последователности на тъмната материя“, вече са секвенирани, но те са толкова странни, че все още не са идентифицирани. Много от тях живеят в екстремни среди, като проявяват удивително биоразнообразие. Вирусите са повсеместно разпространени на планетата, като заразяват широк спектър от животни, растения и бактерии. Те играят важна роля в баланса на екосистемите, като регулират популацията на видовете гостоприемници. Идентифицирането и характеризирането на вирусите обикновено се основава на анализа на РНК-зависимата РНК-полимераза (RdRP), специфичен компонент на геномите на РНК-вирусите. Преди няколко години това позволи идентифицирането на десетки хиляди видове вируси, разширявайки известната „виосфера“ поне 10 пъти. Въпреки напредъка в метагеномното секвениране обаче досега са идентифицирани само малка част от РНК вирусите, а много широко разпространени групи вероятно остават неидентифицирани.
Според Артем Бабаян от Университета в Торонто, Канада, съществува „бездънна яма“ от неидентифицирани вируси. Това отчасти се дължи на факта, че стандартните метагеномни методи не могат да идентифицират силно различаващи се RdRP. Тези „скрити“ последователности, наречени „последователности на тъмната материя“, са многобройни и трудни за идентифициране. Освен това е необходимо да се разработят нови методи за точното им характеризиране. Някои вируси могат да инфектират хората и тяхното характеризиране може да помогне за обяснението на някои мистериозни заболявания. Например наскоро беше изказано предположение за възможно участие на вируси в болестта на Алцхаймер, чиято точна етиология все още е предмет на дискусии. Lucaprot е разработен за тази цел от изследователи от университета Sun Yat-sen (Китай) и университета в Сидни (Австралия). „Нашият метод на изкуствен интелект успя да организира и класифицира цялата тази разнородна информация, като за първи път хвърли светлина върху значението на тази „тъмна материя“,“ обяснява Едуард Холмс, съавтор на изследването, публикувано в списание Cell, в съобщение за пресата от Университета в Сидни.
Странни вируси, живеещи в екстремни среди Когато става въпрос за идентифициране на вирусни последователности, алгоритмите за дълбоко обучение имат няколко предимства пред традиционните биоинформатични подходи, включително по-голяма точност, способност да обработват много големи количества данни за рекордно кратко време и способност за самообучение. Според Манг Ши от университета „Сун Ят-сен“, който също е съавтор на изследването, „преди разчитахме на досадни биоинформатични конвейери за откриване на вируси, което ограничаваше разнообразието, което можехме да изследваме“. Lucaprot се основава на трансформатори - една от най-ефективните архитектури за моделите за дълбоко обучение, които правят прогнози за данни. За разлика от рекурентните невронни мрежи те позволяват данните да се обработват в случаен ред, което значително намалява времето за обучение. На алгоритъма бяха предоставени данни за секвениране и прогнозиране на протеини от ESMFold - инструмент за изкуствен интелект, разработен от Meta*. След това той е обучен да разпознава вирусни RdRps и „последователности от тъмна материя“.
Алгоритми за дълбоко обучение вече са използвани за идентифициране на вируси от геномни и метагеномни данни. Техните архитектури обаче обикновено се основават на конволюционни невронни мрежи (CNN) или рекурентни невронни мрежи. Първите се сблъскват с трудности при работа с последователности с променлива дължина, а вторите не могат да се справят с дълги последователности, което ограничава способността им да откриват дивергентни последователности. Lucaport е идентифицирал 161 979 вида и 180 супергрупи РНК вируси. От тях 70 458 принадлежат към неизвестни досега видове, някои от които имат странни и изключително дълги последователности (до 47 250 нуклеотида). Тези нови видове се срещат и в невероятно разнообразни среди - от въздуха до хидротермалните извори и солените езера. Тяхното разнообразие и плътност варират значително в различните екосистеми. Това е най-големият брой вируси, идентифицирани в рамките на едно проучване. Тяхното идентифициране значително ще подобри разбирането ни за вирусното биоразнообразие в биосферата. „Фактът, че толкова много видове вируси живеят в екстремни среди, е още един пример за феноменалното им разнообразие и издръжливост да живеят в най-предизвикателните среди, което може да ни даде сведения за това как са се появили вирусите и други елементарни форми на живот“, казва Холмс. Милиони други видове предстои да бъдат открити Въпреки броя на идентифицираните видове вируси, екипът смята, че изследванията са само повърхностни и че милиони други видове тепърва предстои да бъдат открити. Ето защо на следващия етап от изследването ще се използва Lucaport за идентифициране на други групи вируси. Този подход може да се използва и за идентифициране на бактерии и паразити. От друга страна, потенциалните гостоприемници на новоидентифицираните вируси все още не са идентифицирани. В момента Ши и колегите му разработват нов модел на изкуствен интелект за тази цел и се надяват да хвърлят повече светлина върху ролята на тези вируси в техните екологични ниши. Ще се работи и за определяне дали някои от тези вируси могат да заразяват археи - еукариотни организми, за които не са идентифицирани известни РНК вируси.
Comentários