Folding@home

Tato stránká je primárně určena pro předmět programování a sbírá informace o výzkumu virů v rámci projektu.

Obsah je průběžně měněn, doplňován a zpřesňován.

Co je Folding@Home

Domovská stránka: https://foldingathome.org/ , Wikipedie - CZ

Folding@home (Folding at home, česky doslova skládání doma) je projekt založený na distribuovaných výpočtech, který využívá počítače připojené přes internet dobrovolníky k simulování skládání proteinů. Do projektu je zahrnuto přes 400 000 počítačů, jejichž výkon přesahuje výkon stovky nejvýkonnějších superpočítačů světa. V Česku se zapojily například během karantény nevyužívané počítače Západočeské univerzity v Plzni nebo Národní technické knihovny Výpočetní výkon celého clusteru již překonal hranici 1 exaFLOPS. Zdroj: Wikipedie

JAK PROBÍHÁ VÝZKUM A HLEDÁNÍ LÉKŮ

Škola poskytla část výpočetního výkonu v rámci projektu Folding@home na hledání léků proti nemoci COVID-19 (koronavirus).

Ke korona-krizi jsme přistoupili trochu jinak a bereme ji jako příležitost prozkoumat jak funguje výzkum v biochemických oborech.

Připojili jsme se k týmu TechnetCZ na základě výzvy z 6. 3. 2020. Článek na Technet.cz

Jak projekt funguje

Projekt je založen na distribuovaných výpočtech. To znamená, že úkol lze rozdělit mezi více počítačů. Mezi typické úlohy patří například modelování struktury proteinů. Snaží se simulovat skládání proteinů. Protein má totiž určitý výchozí tvar, který zajišťuje jeho správnou funkci. Výsledky simulace v rámci Folding@home se využívají pro výzkum složených proteinů, proteinové dynamiky jež lze využít pro hledání léků. Nyní (Březen 2020) se projekt věnuje proteinům viru SARS-CoV-2.

Zdroj: Wikipedie, Folding@home

Projekt je hezkou ukázkou, kam se posouvají mnohe obory (nejen vědní) a jak významně roste jejich závislost na výpočetním výkonu. Při průzkumu struktury viru je používána sada různých algoritmů a programů.

ACE2

Stručné vysvětlení

Převzato z: celý článek na Technet.

Tělo viru, tedy jedna virová částice, je tvořena bílkovinami, tukem a nukleovými kyselinami. Zatímco nukleová kyselina tvoří onu „škodlivou nálož“, tedy genetickou informaci ovlivňující fungování zasažené buňky, bílkoviny jsou klíčové z hlediska šíření virů (a tuk pomáhá držet celek pohromadě). Pomocí takzvaných „spike proteins“, které si můžete představit jako malé ostré bílkovinové hroty, se virus přichytne k enzymu ACE2, který je v lidském těle na povrchu buněk v plicích, arteriích, srdci, ledvinách a střevech. A v tu chvíli začně škodit.

Samotný proces uchycení není pouze otázka „napíchnutí“ se viru na enzym, ale velmi složité a rychlé sekvence pohybů, při níž virus odhalí a aktivuje vazebné rozhraní, kterým se k lidské buňce naváže. Právě prozkoumání a pochopení pohybu a otevírání hrotu pro navázání na enzym lidské buňky je klíčem k tvorbě účinného léčiva – to musí novým vazbám na lidské buňky zamezit a stávající přetrhat.

To má ale zásadní háček – neexistuje zatím zařízení a metoda, které by tento proces a především výsledný otevřený stav dokázaly zachytit a zobrazit tak, aby jej vědci mohli prozkoumat.

Anglický popis na Foldign@home.

Jak výpočty pomáhají

Co se vlastně počítá a má to vůbec smysl?

Na řadu proto příchází počítačové simulace, které potřebný pohled umožní. Jde o dvoufázový proces. První se jmenuje FAST adaptive sampling (FAST proměnné vzorkování), které umožní „nahrubo“ roztřídit a zachytit specifické strukturální změny, přičemž důležité je i zachytit, jak dlouho která část procesu trvá (čím delší je trvání procesu, tím lépe lze na něj léčivo zamířit). V dalším kole se na základě reprezentativních vzorků provede obrovské množství simulací, které mají identifikovat a upřesnit další bílkovinné struktury a určit jejich relativní životnosti.

Viz celý článek na Technet.

Software a hardware používaný při výzkumu

PyMOL

PyMOL je neziskový multiplatformní software s open source licencí sponzorovaný samotnými uživateli[1]. Své využití nachází v biochemických oborech zabývajících se strukturou biopolymerů (DNA, RNA, proteiny), jejich vzájemnými interakcemi apod. PyMOL slouží ke grafickému zobrazování, sdílení a analýze molekulárních dat.

Zdroj: Wikipedie (CZ)

Program je výzkumníky využíván pro generování schématické reprezentace viru SARS-CoV. Výstup možno vidět v článku JBC.

Pro zkoumání proteinů je možno využít databanku. (https://www.rcsb.org/)

Domovská stránka projektu: https://pymol.org/

Algoritmy

MSM - Markov State Model; FAST

CARDS -

Pocket detection -

Součást Python knihovny: https://enspara.readthedocs.io/

GitHub: https://github.com/bowman-lab/enspara

IBM Summit (OLCF-4)

V důsledků obrovského nárůstu počítačů v projektu Folding@home tudíž servery projektu nestíhaly přidělovat práci, byl projekt posílen o výpočetní výkon superpočítače od IBM.

Summit či také OLCF-4 je superpočítač vyvinutý firmou IBM k využití v Oak Ridge National Laboratory, který byl k březnu 2020 s teoretickou rychlostí 200 PFLOPS nejrychlejším centralizovaným superpočítačem světa. Wikipedie.

Memo:

proteinová klasifikace, un/drugable
Understanding cryptic pocket (místa na cílových proteinech, které se projeví až po navázání léků)
- místa jsou ve výchozím stavu skrytá
- počítačová simulace hledá tato místa
- nalezení otvírá prostor pro vývoj léků
- účinnost simulace validována zpětně
fluctuation amplification of specific traits (FAST)
exposons analysis pipeline (solvent exposure identify cryptic pockets)
- exposon is a cluster of residues that undergo cooperative changes
correlation of all rotameric and dynamical states (CARDS) algorithm (Python)
CookBook - MSM, Python; Algoritmus CARDS ;PyMOL - Software pro zkoumání struktury proteinů.
https://www.scistyle.com/
Behind the scene

Slovník: (náročná terminologie, postupně zkusíme upřesnit, někde se zeptat :-):

amenable; drug; undrugable; cryptic pockets; ligand; retrodiction; exposons;

drugability: ehem, jak to jen přeložit?, zatím popis - schopnost např. proteinu vázat na sebe nějakou látku, nejlépe lék, ...

allosteric communication - alosterická komunikace - která rezidua komunikují s oblastmi uvnitř proteinů, které nás zajímají