Import data to workspace: PLINK example

We have uploaded HapMap data in PLINK format (bed/bim/fam) to this workspace. We then ran the plink2_bed2vcf workflow to convert the PLINK genotypes to a VCF file. In this notebook, we prepare the data from these files for importing into data tables.

Install and load R packages

# get the latest version of AnVIL from github
#remotes::install_github("UW-GAC/AnvilDataModels")
library(AnVIL)
library(AnvilDataModels)
library(tidyverse)

Files in workspace

To access files in this workspace, we need the google bucket ID, which is returned by the avbucket function. gsutil_ls(bucket) would list all the files in the bucket.

(bucket <- avbucket())

[1] "gs://fc-d57f9c4e-210f-46d6-a9a9-1a3071fa5fff"

To read from a google bucket, we use the gsutil_pipe function. We need to specify "rb" as “read from binary”. An alternative is to copy the file to the local instance with gsutil_cp.

prefix <- "hapmap3_r3_b37_fwd.consensus.qc.poly_Ilmn1M"
famfile <- paste0(bucket, "/", prefix, ".fam")
famfile %in% gsutil_ls(bucket)

[1] TRUE

fampipe <- gsutil_pipe(famfile, "rb")
fam <- read_table(fampipe, col_names=c("family", "indiv", "father", "mother", "sex", "phen"), col_types="cccccc")
head(fam)

Prepare tables according to data model

Sample and subject tables

Create subject table

subject <- fam %>%
    mutate(reported_sex=c("1"="Male", "2"="Female")[sex]) %>%
    select(subject_id=indiv, reported_sex) %>%
    mutate(consent_code="NRUP",
          study_nickname="HapMap",
          dbgap_submission=FALSE)
head(subject)

Create sample table. In this example we use the same identifiers for subject and sample, but different values for each are preferred.

sample <- fam %>%
    select(sample_id=indiv) %>%
    mutate(subject_id=sample_id,
           tissue_source="cell line")
head(sample)

Sample sets

Define sample set to link to genotype data. We will create two sets, one with all samples (recommended for inclusion in every workspace), and one with 100 samples that we will call “set1”.

sample_set <- create_set_all(sample, table_name="sample")
sample_set_100 <- tibble(sample_set_id="set1", sample_id=sample$sample_id[1:100])
sample_set <- bind_rows(sample_set, sample_set_100)
head(sample_set)

tail(sample_set)

count(sample_set, sample_set_id)

Datasets

Each dataset is linked to a sample_set, but the same sample set may correspond to multiple datasets (such as array data and imputed data).

Array data

Metadata describing the array is stored in the array_dataset table. We save this as a set of “field” and “value” pairs for input to the workflow that assigns a unique identifier for each dataset.

array_fields <- list(
    sample_set_id = "all",
    genotyping_center = "Wellcome Trust Sanger Institute",
    array_manufacturer = "Illumina",
    array_name = "Human 1M",
    genotype_calling_software = "BeadStudio",
    reference_assembly = "GRCh37"
)
array_dataset <- tibble(field=names(array_fields),
                        value=unlist(array_fields))

Files are linked to datasets. The md5 hash of each file is used to generate the primary key for the ‘file’ table. The md5 should be computed before uploading to the workspace. Later, we will use the check_md5 workflow to make sure the upload was successful.

files <- paste0(bucket, "/", prefix, c(".bed", ".bim", ".fam"))
md5 <- c("ec6096edea0d6f46191a0275577b3f02",
         "5a1e4276783afa0a235f907edae1dae3",
         "4d9651bb9e45054dc8ed8c1c59cba19d")
array_file <- tibble(md5sum = md5,
                     file_path = files,
                     file_type = c("PLINK bed", "PLINK bim", "PLINK fam"))

In addition to the PLINK files, we add the converted and lifted over VCFs to the file table. The workflows plink2_bed2vcf and liftover_vcf output the md5sum along with VCF files.

array_file <- array_file %>%
  bind_rows(tibble(md5sum = c("644afbb696822d378c2493fb4d06e389", 
                              "bc906202e47eef92ec5df7939f30c189"),
                   file_path = paste0(bucket, c(
                     "/submissions/bcf1e11b-4836-4f27-9055-f91e7bb579b1/plink2_bed2vcf/393c7eb0-5fbf-4d35-9815-cd800b0c0793/call-results/cacheCopy/hapmap3_r3_Ilmn1M_hg19.vcf.gz",
                     "/submissions/2369a243-179e-4af6-a518-c4c29900008b/liftover_vcf/50004a72-e76e-4899-a5b6-9c927b957c2a/call-merge_vcf/hapmap3_r3_Ilmn1M_hg38.vcf.gz")),
                   file_type = "VCF"))

Write tables as files to workspace bucket

To check the tables using a workflow, they must be written as files to the workspace bucket.

table_names <- c("subject", "sample", "sample_set", "array_dataset", "array_file")
for (t in table_names) {
  outfile <- paste0("HapMap_", t, "_table.tsv")
  write_tsv(get(t), outfile)
  gsutil_cp(outfile, bucket)
}

Check tables against data model

Once all tables have been created, we can check that they conform to the data model. This is most easily accomplished by providing the paths to the tables in TSV format as input to the validate_genotype_model workflow.

LS0tCnRpdGxlOiAiUFJJTUVEIGV4YW1wbGUgbm90ZWJvb2s6IFBMSU5LIGZpbGVzIgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgojIEltcG9ydCBkYXRhIHRvIHdvcmtzcGFjZTogUExJTksgZXhhbXBsZQoKV2UgaGF2ZSB1cGxvYWRlZCBIYXBNYXAgZGF0YSBpbiBQTElOSyBmb3JtYXQgKGJlZC9iaW0vZmFtKSB0byB0aGlzIHdvcmtzcGFjZS4gV2UgdGhlbiByYW4gdGhlIGBwbGluazJfYmVkMnZjZmAgd29ya2Zsb3cgdG8gY29udmVydCB0aGUgUExJTksgZ2Vub3R5cGVzIHRvIGEgVkNGIGZpbGUuIEluIHRoaXMgbm90ZWJvb2ssIHdlIHByZXBhcmUgdGhlIGRhdGEgZnJvbSB0aGVzZSBmaWxlcyBmb3IgaW1wb3J0aW5nIGludG8gZGF0YSB0YWJsZXMuCgojIyBJbnN0YWxsIGFuZCBsb2FkIFIgcGFja2FnZXMKCmBgYHtyfQojIGdldCB0aGUgbGF0ZXN0IHZlcnNpb24gb2YgQW5WSUwgZnJvbSBnaXRodWIKI3JlbW90ZXM6Omluc3RhbGxfZ2l0aHViKCJVVy1HQUMvQW52aWxEYXRhTW9kZWxzIikKbGlicmFyeShBblZJTCkKbGlicmFyeShBbnZpbERhdGFNb2RlbHMpCmxpYnJhcnkodGlkeXZlcnNlKQpgYGAKCiMjIEZpbGVzIGluIHdvcmtzcGFjZQoKVG8gYWNjZXNzIGZpbGVzIGluIHRoaXMgd29ya3NwYWNlLCB3ZSBuZWVkIHRoZSBnb29nbGUgYnVja2V0IElELCB3aGljaCBpcyByZXR1cm5lZCBieSB0aGUgYGF2YnVja2V0YCBmdW5jdGlvbi4gYGdzdXRpbF9scyhidWNrZXQpYCB3b3VsZCBsaXN0IGFsbCB0aGUgZmlsZXMgaW4gdGhlIGJ1Y2tldC4KCmBgYHtyfQooYnVja2V0IDwtIGF2YnVja2V0KCkpCmBgYAoKVG8gcmVhZCBmcm9tIGEgZ29vZ2xlIGJ1Y2tldCwgd2UgdXNlIHRoZSBgZ3N1dGlsX3BpcGVgIGZ1bmN0aW9uLiBXZSBuZWVkIHRvIHNwZWNpZnkgYCJyYiJgIGFzICJyZWFkIGZyb20gYmluYXJ5Ii4gQW4gYWx0ZXJuYXRpdmUgaXMgdG8gY29weSB0aGUgZmlsZSB0byB0aGUgbG9jYWwgaW5zdGFuY2Ugd2l0aCBgZ3N1dGlsX2NwYC4KCmBgYHtyfQpwcmVmaXggPC0gImhhcG1hcDNfcjNfYjM3X2Z3ZC5jb25zZW5zdXMucWMucG9seV9JbG1uMU0iCmZhbWZpbGUgPC0gcGFzdGUwKGJ1Y2tldCwgIi8iLCBwcmVmaXgsICIuZmFtIikKZmFtZmlsZSAlaW4lIGdzdXRpbF9scyhidWNrZXQpCmZhbXBpcGUgPC0gZ3N1dGlsX3BpcGUoZmFtZmlsZSwgInJiIikKZmFtIDwtIHJlYWRfdGFibGUoZmFtcGlwZSwgY29sX25hbWVzPWMoImZhbWlseSIsICJpbmRpdiIsICJmYXRoZXIiLCAibW90aGVyIiwgInNleCIsICJwaGVuIiksIGNvbF90eXBlcz0iY2NjY2NjIikKaGVhZChmYW0pCmBgYAoKIyMgUHJlcGFyZSB0YWJsZXMgYWNjb3JkaW5nIHRvIGRhdGEgbW9kZWwKCiMjIyBTYW1wbGUgYW5kIHN1YmplY3QgdGFibGVzCgpDcmVhdGUgc3ViamVjdCB0YWJsZQoKYGBge3J9CnN1YmplY3QgPC0gZmFtICU+JQogICAgbXV0YXRlKHJlcG9ydGVkX3NleD1jKCIxIj0iTWFsZSIsICIyIj0iRmVtYWxlIilbc2V4XSkgJT4lCiAgICBzZWxlY3Qoc3ViamVjdF9pZD1pbmRpdiwgcmVwb3J0ZWRfc2V4KSAlPiUKICAgIG11dGF0ZShjb25zZW50X2NvZGU9Ik5SVVAiLAogICAgICAgICAgc3R1ZHlfbmlja25hbWU9IkhhcE1hcCIsCiAgICAgICAgICBkYmdhcF9zdWJtaXNzaW9uPUZBTFNFKQpoZWFkKHN1YmplY3QpCmBgYAoKQ3JlYXRlIHNhbXBsZSB0YWJsZS4gSW4gdGhpcyBleGFtcGxlIHdlIHVzZSB0aGUgc2FtZSBpZGVudGlmaWVycyBmb3Igc3ViamVjdCBhbmQgc2FtcGxlLCBidXQgZGlmZmVyZW50IHZhbHVlcyBmb3IgZWFjaCBhcmUgcHJlZmVycmVkLgoKYGBge3J9CnNhbXBsZSA8LSBmYW0gJT4lCiAgICBzZWxlY3Qoc2FtcGxlX2lkPWluZGl2KSAlPiUKICAgIG11dGF0ZShzdWJqZWN0X2lkPXNhbXBsZV9pZCwKICAgICAgICAgICB0aXNzdWVfc291cmNlPSJjZWxsIGxpbmUiKQpoZWFkKHNhbXBsZSkKYGBgCgoKIyMjIFNhbXBsZSBzZXRzCgpEZWZpbmUgc2FtcGxlIHNldCB0byBsaW5rIHRvIGdlbm90eXBlIGRhdGEuIFdlIHdpbGwgY3JlYXRlIHR3byBzZXRzLCBvbmUgd2l0aCBhbGwgc2FtcGxlcyAocmVjb21tZW5kZWQgZm9yIGluY2x1c2lvbiBpbiBldmVyeSB3b3Jrc3BhY2UpLCBhbmQgb25lIHdpdGggMTAwIHNhbXBsZXMgdGhhdCB3ZSB3aWxsIGNhbGwgInNldDEiLgoKYGBge3J9CnNhbXBsZV9zZXQgPC0gY3JlYXRlX3NldF9hbGwoc2FtcGxlLCB0YWJsZV9uYW1lPSJzYW1wbGUiKQpzYW1wbGVfc2V0XzEwMCA8LSB0aWJibGUoc2FtcGxlX3NldF9pZD0ic2V0MSIsIHNhbXBsZV9pZD1zYW1wbGUkc2FtcGxlX2lkWzE6MTAwXSkKc2FtcGxlX3NldCA8LSBiaW5kX3Jvd3Moc2FtcGxlX3NldCwgc2FtcGxlX3NldF8xMDApCmhlYWQoc2FtcGxlX3NldCkKdGFpbChzYW1wbGVfc2V0KQpjb3VudChzYW1wbGVfc2V0LCBzYW1wbGVfc2V0X2lkKQpgYGAKCiMjIyBEYXRhc2V0cwoKRWFjaCBkYXRhc2V0IGlzIGxpbmtlZCB0byBhIHNhbXBsZV9zZXQsIGJ1dCB0aGUgc2FtZSBzYW1wbGUgc2V0IG1heSBjb3JyZXNwb25kIHRvIG11bHRpcGxlIGRhdGFzZXRzIChzdWNoIGFzIGFycmF5IGRhdGEgYW5kIGltcHV0ZWQgZGF0YSkuCgojIyMgQXJyYXkgZGF0YQoKTWV0YWRhdGEgZGVzY3JpYmluZyB0aGUgYXJyYXkgaXMgc3RvcmVkIGluIHRoZSBhcnJheV9kYXRhc2V0IHRhYmxlLiBXZSBzYXZlIHRoaXMgYXMgYSBzZXQgb2YgImZpZWxkIiBhbmQgInZhbHVlIiBwYWlycyBmb3IgaW5wdXQgdG8gdGhlIHdvcmtmbG93IHRoYXQgYXNzaWducyBhIHVuaXF1ZSBpZGVudGlmaWVyIGZvciBlYWNoIGRhdGFzZXQuCgpgYGB7cn0KYXJyYXlfZmllbGRzIDwtIGxpc3QoCiAgICBzYW1wbGVfc2V0X2lkID0gImFsbCIsCiAgICBnZW5vdHlwaW5nX2NlbnRlciA9ICJXZWxsY29tZSBUcnVzdCBTYW5nZXIgSW5zdGl0dXRlIiwKICAgIGFycmF5X21hbnVmYWN0dXJlciA9ICJJbGx1bWluYSIsCiAgICBhcnJheV9uYW1lID0gIkh1bWFuIDFNIiwKICAgIGdlbm90eXBlX2NhbGxpbmdfc29mdHdhcmUgPSAiQmVhZFN0dWRpbyIsCiAgICByZWZlcmVuY2VfYXNzZW1ibHkgPSAiR1JDaDM3IgopCmFycmF5X2RhdGFzZXQgPC0gdGliYmxlKGZpZWxkPW5hbWVzKGFycmF5X2ZpZWxkcyksCiAgICAgICAgICAgICAgICAgICAgICAgIHZhbHVlPXVubGlzdChhcnJheV9maWVsZHMpKQpgYGAKCkZpbGVzIGFyZSBsaW5rZWQgdG8gZGF0YXNldHMuIFRoZSBtZDUgaGFzaCBvZiBlYWNoIGZpbGUgaXMgdXNlZCB0byBnZW5lcmF0ZSB0aGUgcHJpbWFyeSBrZXkgZm9yIHRoZSAnZmlsZScgdGFibGUuIFRoZSBtZDUgc2hvdWxkIGJlIGNvbXB1dGVkIGJlZm9yZSB1cGxvYWRpbmcgdG8gdGhlIHdvcmtzcGFjZS4gTGF0ZXIsIHdlIHdpbGwgdXNlIHRoZSBgY2hlY2tfbWQ1YCB3b3JrZmxvdyB0byBtYWtlIHN1cmUgdGhlIHVwbG9hZCB3YXMgc3VjY2Vzc2Z1bC4KCmBgYHtyfQpmaWxlcyA8LSBwYXN0ZTAoYnVja2V0LCAiLyIsIHByZWZpeCwgYygiLmJlZCIsICIuYmltIiwgIi5mYW0iKSkKbWQ1IDwtIGMoImVjNjA5NmVkZWEwZDZmNDYxOTFhMDI3NTU3N2IzZjAyIiwKICAgICAgICAgIjVhMWU0Mjc2NzgzYWZhMGEyMzVmOTA3ZWRhZTFkYWUzIiwKICAgICAgICAgIjRkOTY1MWJiOWU0NTA1NGRjOGVkOGMxYzU5Y2JhMTlkIikKYXJyYXlfZmlsZSA8LSB0aWJibGUobWQ1c3VtID0gbWQ1LAogICAgICAgICAgICAgICAgICAgICBmaWxlX3BhdGggPSBmaWxlcywKICAgICAgICAgICAgICAgICAgICAgZmlsZV90eXBlID0gYygiUExJTksgYmVkIiwgIlBMSU5LIGJpbSIsICJQTElOSyBmYW0iKSkKYGBgCgpJbiBhZGRpdGlvbiB0byB0aGUgUExJTksgZmlsZXMsIHdlIGFkZCB0aGUgY29udmVydGVkIGFuZCBsaWZ0ZWQgb3ZlciBWQ0ZzIHRvIHRoZSBmaWxlIHRhYmxlLiBUaGUgd29ya2Zsb3dzIGBwbGluazJfYmVkMnZjZmAgYW5kIGBsaWZ0b3Zlcl92Y2ZgIG91dHB1dCB0aGUgbWQ1c3VtIGFsb25nIHdpdGggVkNGIGZpbGVzLgoKYGBge3J9CmFycmF5X2ZpbGUgPC0gYXJyYXlfZmlsZSAlPiUKICBiaW5kX3Jvd3ModGliYmxlKG1kNXN1bSA9IGMoIjY0NGFmYmI2OTY4MjJkMzc4YzI0OTNmYjRkMDZlMzg5IiwgCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICJiYzkwNjIwMmU0N2VlZjkyZWM1ZGY3OTM5ZjMwYzE4OSIpLAogICAgICAgICAgICAgICAgICAgZmlsZV9wYXRoID0gcGFzdGUwKGJ1Y2tldCwgYygKICAgICAgICAgICAgICAgICAgICAgIi9zdWJtaXNzaW9ucy9iY2YxZTExYi00ODM2LTRmMjctOTA1NS1mOTFlN2JiNTc5YjEvcGxpbmsyX2JlZDJ2Y2YvMzkzYzdlYjAtNWZiZi00ZDM1LTk4MTUtY2Q4MDBiMGMwNzkzL2NhbGwtcmVzdWx0cy9jYWNoZUNvcHkvaGFwbWFwM19yM19JbG1uMU1faGcxOS52Y2YuZ3oiLAogICAgICAgICAgICAgICAgICAgICAiL3N1Ym1pc3Npb25zLzIzNjlhMjQzLTE3OWUtNGFmNi1hNTE4LWM0YzI5OTAwMDA4Yi9saWZ0b3Zlcl92Y2YvNTAwMDRhNzItZTc2ZS00ODk5LWE1YjYtOWM5MjdiOTU3YzJhL2NhbGwtbWVyZ2VfdmNmL2hhcG1hcDNfcjNfSWxtbjFNX2hnMzgudmNmLmd6IikpLAogICAgICAgICAgICAgICAgICAgZmlsZV90eXBlID0gIlZDRiIpKQpgYGAKCgojIyBXcml0ZSB0YWJsZXMgYXMgZmlsZXMgdG8gd29ya3NwYWNlIGJ1Y2tldAoKVG8gY2hlY2sgdGhlIHRhYmxlcyB1c2luZyBhIHdvcmtmbG93LCB0aGV5IG11c3QgYmUgd3JpdHRlbiBhcyBmaWxlcyB0byB0aGUgd29ya3NwYWNlIGJ1Y2tldC4KCmBgYHtyfQp0YWJsZV9uYW1lcyA8LSBjKCJzdWJqZWN0IiwgInNhbXBsZSIsICJzYW1wbGVfc2V0IiwgImFycmF5X2RhdGFzZXQiLCAiYXJyYXlfZmlsZSIpCmZvciAodCBpbiB0YWJsZV9uYW1lcykgewogIG91dGZpbGUgPC0gcGFzdGUwKCJIYXBNYXBfIiwgdCwgIl90YWJsZS50c3YiKQogIHdyaXRlX3RzdihnZXQodCksIG91dGZpbGUpCiAgZ3N1dGlsX2NwKG91dGZpbGUsIGJ1Y2tldCkKfQpgYGAKCgojIyBDaGVjayB0YWJsZXMgYWdhaW5zdCBkYXRhIG1vZGVsCgpPbmNlIGFsbCB0YWJsZXMgaGF2ZSBiZWVuIGNyZWF0ZWQsIHdlIGNhbiBjaGVjayB0aGF0IHRoZXkgY29uZm9ybSB0byB0aGUgZGF0YSBtb2RlbC4gVGhpcyBpcyBtb3N0IGVhc2lseSBhY2NvbXBsaXNoZWQgYnkgcHJvdmlkaW5nIHRoZSBwYXRocyB0byB0aGUgdGFibGVzIGluIFRTViBmb3JtYXQgYXMgaW5wdXQgdG8gdGhlIGB2YWxpZGF0ZV9nZW5vdHlwZV9tb2RlbGAgd29ya2Zsb3cuCg==

PRIMED example notebook: PLINK files