Course title
大數據分析平臺簡介

Course description
本跨領域課程由多位研究人員共同授課,包括國家衛生研究院賴俊吉博士,國家高速網路中心林沿妊博士,清大資
工張君天教授,清大統計謝文萍教授與清大醫科陳令儀教授,目的在培養學生分析大量資料的能力,內容涵蓋基礎
的工作站電腦使用、測序資料分析工具、流程串接語言,並以基因體資料為例進行實務分析。

Syllabus
1.Introduction to Linux OS and shell commands
2.Analysis of sequencing data
* Basic concept about Perl and BioPerl
* Alignment of short read data (BWA)
* Variant call and quality control (SAMtools, samblaster, Qualimap, Strelka2)
* Structural variant and somatic variant (Manta, Control-FREEC)
* Visualization and annotation (IGV, cBioPortal)
3.Introduction to Common Workflow Language
* Introduction and setup of Cromwell, which is developed by Broad Institute
* Build dockers for genomic tools

Class time: 9:00-12:00 on Thursday
Class room: 2/21在綜合三館834,3/7開始改到計通中心電腦教室III

Grading
Homework 30% 預計有六次作業,配合課程進行實作分析,分組進行。
Final project 70% 分組實作一個可以在Linux環境上執行的資料分析流程。



Reference
本課程內容針對不熟悉網路資料存取但又對大型主機運算有需求的學生設計,因此授課老師會使用
自己撰寫的講義,主要內容可以在下列書上查閱:
1. Somnath Datta and Dan Nettleton (2014) Statistical Analysis of Next
Generation Sequencing Data (Frontiers in Probability and the Statistical
Sciences). Springer
2. Vince Buffalo (2015), Bioinformatics Data Skills: Reproducible and Robust
Research with Open Source Tools. O'Reilly
3. Adrian Mouat (2016) Using Docker. O'Reilly