Changes between Version 72 and Version 73 of MolgenisAppStories


Ignore:
Timestamp:
2011-11-28T07:24:01+01:00 (13 years ago)
Author:
Morris Swertz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • MolgenisAppStories

    v72 v73  
    44These are user stories from LifeLines and PanaceaProject.
    55
    6 == Scenario 1: using catalog to browse and requests study data ==
    7 Module/Catalogue
     6 * '''AppCatalogue''' - select and browse data
     7   * StoryCreateBiobankCatalog - load protocols, measurements, categories
     8   * StoryBrowseCatalogAndSelectFeatures - User can browse and select features in a treeview; Selected features are put in shopping cart.
     9   * StoryRequestData - User can request access to data set; Includes summary of research, power calculation, etc.
     10   * StoryApproveRequest - LifeLines approves request; selected features and targets is passed to scenario 2.
     11 * '''AppInstaller''' - SOP to install research portal
     12   * StoryConvertPhenoData - prepare the pheno data in pheno format
     13   * StoryImputeGenoData - impute the raw genotype data (future)
     14   * StoryConvertGenoData - prepare geno data set(s) in binary and plink format
     15   * StoryNewMolgenisVm - create VM with the app and autoload data, users, firewall.
     16   * (LifeLInes) StoryLinkWomToVm - coordinate with UMCG-ICT to link VM to WOM
     17 * '''AppResearchPortal''' - user can access data via research portal
     18   * StoryBrowseAndSelectFeatures - User can browse and select features in a treeview; Selected features are put in shopping cart.
     19   * StoryViewAndFilterInMatrix - user can browse and filter data in matrix view; repeated values can be made cols/rows
     20   * StoryDownloadAsPlink - user can select one feature and download with associated genotypes
     21   * StoryDownloadAsSpss - use can select multiple features and download as spss
     22   * StoryRunGwasAnalysis
    823
    9 Stories:
    10  * StoryCreateBiobankCatalog -
    11  * StoryBrowseCatalogAndSelectFeatures - User can browse and select features in a treeview; Selected features are put in shopping cart.
    12  * StoryRequestData - User can request access to data set; Includes summary of research, power calculation, etc.
    13  * StoryApproveRequest - LifeLines approves request; selected features and targets is passed to scenario 2.
    14  
    15 {{{
    16 #!YumlUseCase
    17 [Admin]-(CreateBiobankCatalo)
    18 [Researcher]-(BrowseCatalogAndSelectFeatures)
    19 [Researcher]-(RequestData)
    20 [LifeLines]-(RequestData)
    21 [LifeLines]-(ApproveRequest)
    22 (note: shopping cart of features is passed to scenario 2 {bg:beige})
    23 }}}
    2424
    25 == Scenario 2: provide a Molgenis Research Portal for a study ==
    26 Module/Installer
    2725
    28 Stories:
    29 * StoryConvertPhenoData - prepare the pheno data in pheno format
    30 * StoryImputeGenoData - impute the raw genotype data (future)
    31 * StoryConvertGenoData - prepare geno data set(s) in binary and plink format
    32 * StoryNewMolgenisVm - create VM with the app and autoload data, users, firewall.
    33 * (LifeLInes) StoryLinkWomToVm - coordinate with UMCG-ICT to link VM to WOM
    34 
    35 Overview:
    36 
    37 {{{
    38 #!YumlUseCase
    39 (precondition: pheno data is selelected; geno data in plink format {bg:beige})
    40 [Admin]-(ConvertPhenoData)
    41 [Admin]-(ConvertGenoData)
    42 [Admin]-(CreateMolgenisVM)
    43 [Admin]-(LinkVmToWom)
    44 }}}
    45 
    46 == Scenario 3: user can access data via research portal ==
    47 Module/ResearchPortal
    48 
    49 * StoryBrowseAndSelectFeatures - User can browse and select features in a treeview; Selected features are put in shopping cart.
    50 * StoryViewAndFilterInMatrix - user can browse and filter data in matrix view; repeated values can be made cols/rows
    51 * StoryDownloadAsPlink - user can select one feature and download with associated genotypes
    52 * StoryDownloadAsSpss - use can select multiple features and download as spss
    53 * StoryRunGwasAnalysis
    54 
    55 {{{#!YumlUseCase
    56 
    57 [Researcher]-BrowseAndSelectFeatures
    58 [Researcher]-ViewAndFilterInMatrix
    59 [Researcher]-DownloadAsPlink
    60 [Researcher]-DownloadAsSpss
    61 [Researcher]-RunGwasAnalysis
    62 
    63 }}}
    6426
    6527== As LL team we want to provide a Molgenis Research Portal for each study ==
     
    7638
    7739
    78 === We must have the imputed Third Release geno data on gpfs storage ===
    79  * Harm-Jan is currently imputing; this will take another two weeks.
    80  * After that we can upload these data (in TriTyper format?) to gpfs.
    81 
    82 Harm-Jan:
    83 
    84 Op dit moment ben ik de genotype data van LifeLines release 3 aan het imputeren op het millipede cluster. Ik zal proberen deze in de gestelde twee weken klaar te hebben. Als dit allemaal is afgerond heb ik een file die voor elke SNP aangeeft wat de imputatie kwaliteit is geweest (mbv de door BEAGLE aangegeven r2 kwaliteits score), per 300 samples. Om de data spoedig te imputeren deel ik de totale dataset namelijk op in batches van ongeveer 300. Ik zal er voor zorgen dat er een koppeltabel komt die aangeeft welke sample in welke batch zit en geef daarnaast ook de gemiddelde imputatie score over alle batches. Daarnaast loont het de moeite om voor elke SNP ook de minor allele frequency (MAF) en de Hardy-Weinberg p-waarde (HWEP) te presenteren. Deze HWEP is een waarde die aangeeft of de verdeling van de allelfrequentie voor een SNP overeenkomt met de verwachte allelfrequentie verdeling voor die SNP. We hebben eerder gezien dat een lage HWEP vaak samen gaat met een lage imputatie kwaliteit (ie: door fouten in imputatie wijkt de werkelijke allelfrequentie verdeling af van de verwachte). Bovendien zijn deze waardes zijn eenvoudig uit te rekenen met de software die ik Joeri eerder heb gegeven. Daarnaast kan de MAF ook informatief zijn aangezien laag-frequente SNPs (MAF < 0.01) slecht geimputeerd worden in de huidige setting, aangezien de referentie dataset slechts 90 samples bevat.
    85 
    86 Morris:
    87 
    88 2 vraagjes:
    89 
    90 (1) Wat is de preciese imputatie procedure? (of verschilt die niet van wat Alex doet)? We moeten onderzoekers namelijk precies kunnen vertellen wat ze krijgen.
    91 
    92 (2) Dit is namelijk iets wat LifeLines straks gewoon zelf moet kunnen (dwz Alex pipeline werkt al op compute dus als die identiek is hebben we 'go').
    93 
    94 @Joeri: het zou mooi zijn alle info die HarmJan nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo.
    95 
    96 === We need to be able to link geno to pheno data ===
    97 Proposal by Jan-Lucas:
    98 
    99 Uitgangspunten:
    100 
    101  a. Marcel spreadsheet bevat LLPatient ID's en Marcel Pseudoniemen (gekoppeld).
    102  b. LL PatientID's gaan niet van LRA naar Target Stage.
    103  c. Target Stage bevat LL bronpseudoniem.
    104  d. Voor onderzoek wordt LL bronpseudoniem vervangen door onderzoekpseudoniem.
    105 
    106 Voorstel zelf:
    107 
    108  1. Marcels spreadsheet wordt geimporteerd in LRA, indien niet mogelijk in aparte database.
    109  2. Bij aanmaken dataset in UMCG Publish voor een onderzoek wordt Marcels spreadsheet op dezelfde manier gepseudonimiseerd als de LRA data, van Patient ID naar bronpseudoniem naar onderzoekspseudoniem. Dit levert lijst op met onderzoekspseudoniem en Marcelpseudoniem.
    110  3. Lijst gaat mee in data export/import naar CIT Publish.
    111  4. Op CIT publish komt een view die vertaling maakt van Marcelpseudoniem naar onderzoekspseudoniem per onderzoek. View kan relatoneel zijn, maar ook XML opeleveren.
    112  5. Op CIT publish komt een database procedure voor legen van tabel met pseudoniemen.
    113  6. Als LRA dat op CIT Publish staat wordt view uitgelezen, op basis hiervan kan procedure "replace pseudonyms" uitgevoerd worden (uit Gert-Jans PPTX).
    114  7. Na procedure "replace pseudonyms" wordt eventueel aangemaakte file met pseudoniemen verwijderd. (Bij voorkeur heeft procedure die lijst in memory, maar als in file dan moet deze verwijderd.
    115  8. Na procedure "replace pseudonyms" wordt tabel met pseudoniemen geleegd voor dat onderzoek, dan met aanroepen database procedure.
    116 
    117 === We must be able to initiate a GWAS run from the Research Portal ===
    118 
    119 Proposed flow by Morris:
    120 
    121 precondition:
    122 * De research portal heeft toegang tot een genofile (meteen plink format + binary format) met daarin dezelfde individual pseudonyms als in de pheno database. Of kunnen we hier beter alleen de xQTL binary file voor gebruiken?
    123 * Deze genodata wordt dus vooraf al per research portal met de juiste pseudoniemen klaargezet (=SOP genodata). De portal hoeft dus niet zelf de pseudonimisatie te raadplegen.
    124 * De VM draait direct bovenop het cluster en heeft via dat cluster toegang tot GPFS. Elke research portal heeft dus een folder zoiets als /gpfs/target/lifelines/study1/rawdata/study1.bed
    125 
    126 logica:
    127 * Als de gebruiker het phenotype heeft geselecteerd gaat programma dus, gegeven lijst van individuen, de gehele bed (?) file doorlopen en (1) rijen weglaten van individuals die niet in de view zitten en (2) de pheno kolom aanpassen met het juiste phenotype.
    128 * Implementatie is afhankelijk van hoe lang dit proces duurt. Is het 'klaar terwijl je wacht' dan kan het gewoon als plugin. Anders moet het via MOLGENIS compute zoals Joeri beschrijft. Output: /gpfs/target/lifelines/study1/results/myselection1.bed
    129 
    130 Acceptance criteria:
    131 * List of individuals and selected phenotype are passed from the Portal
    132 
    133