R을 활용한 유전체 빅데이터 통계 분석 수료증
모집인원9,999명
학습기간2024-09-01 ~ 2029-12-31
성명 |
선 호 근 |
소속기관 |
부산대학교 통계학과 |
강의 명 (주제) |
R을 활용한 유전체 빅데이터 통계 분석 (Statistical analysis of high-dimensional genomic data using R) |
||
학습목표 |
유전체 발현량 데이터와 DNA 메틸화 데이터와 같은 고차원 유전체 데이터를 분석하는 통계적 검정 방법들과 벌점함수 기반 변수선택 방법들을 학습시키고, 통계 패키지 R을 사용하여 실제 유전체 빅데이터를 분석하는 실습을 통해 학생들의 데이터 분석 능력을 향상시킨다. |
||
분야 |
AI, Bio |
||
단계 |
기초 및 심화 |
목차 (강의시간) |
강의내용 |
실습여부 |
교수자 |
1 |
Introduction to statistical genetics with R: 유전체 데이터 분석에 통계적 방법이 필요한 population-based study, genome wide association study, microarray data analysis등을 간략하게 소개하고 R 프로그램 초심자를 위해 기초적인 R 프로그램 사용법을 실습한다. |
O |
선호근 |
2 |
Statistical tests for genomic data: 유전체 데이터 분석에 많이 사용되는 기초적 통계 검정 방법들을 소개한다. 특히, T-검정, F-검정, Chi-square 검정 방법들을 학습하고 R 실습을 통해 실제 유전체 데이터를 검정하는 방법을 배운다. |
O |
선호근 |
3 |
Non-parametric tests for genomic data: 비모수 검정에 사용되는 permutation 검정, Wilcoxon rank sum 검정 방법들을 학습하고 R 실습을 통해 실제 유전체 데이터를 검정하는 방법을 배운다. |
O |
선호근 |
4 |
One-way analysis of variance: 3개 이상의 집단 간 유전체 발현량의 차이를 검정할 경우 사용하는 분산분석과 post-hoc 검정 방법들을 학습하고 실제 유전체 데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
5 |
Multiple testing procedure: 각각의 유전체 발현량 값들에 대해서 다중 검정을 진행할 경우 family-wise error rate (FWER)과 false discoveryrate (FDR)을 조정할 수 있는 통계적 방법들을 학습하고 실제 유전체데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
6 |
Statistical variable selection: 고차원 유전체 데이터를 분석할 때 표현형질 및 질병에 관련이 있는 유전체들을 찾아내는 변수선택 방법 중선형모형을 기반으로 하는 lasso 모형을 학습하고 실제 유전체 데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
7 |
Cross-validation for tuning parameter: 고차원 유전체 데이터에서 변수선택방법으로 많이 사용하는 lasso의 조절모수 (tuning parameter)를 선택하기 위한 교차검증 (cross-validation) 방법을 학습하고 실제 유전체 데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
8 |
Analysis of high-dimensional genomic data I: 선형모형 기반의 벌점함수를 사용하는 penalized regression의 여러 가지 방법들과 elastic-net 모형을 학습하고 실제 유전체 데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
9 |
Analysis of high-dimensional genomic data II: group lasso, sparse group lasso, group exponential lasso와 같은 고급 regularization 모형들을 학습하고 실제 유전체 데이터를 분석하는 R 실습을 진행한다. |
O |
선호근 |
10 |
Analysis of high-dimensional DNA methlylation data: 후성유전학 분야에서 많이 사용되는 고차원 DNA methylation data의 특성에 대해서 학습하고 R을 사용하여 실제 난소암(ovarian cancer) 환자들의 DNA methylation data를 분석하는 실습을 진행한다. |
O |
선호근 |
선수과목 |
통계학 개론, R 프로그래밍 언어 |
참고자료 |
1. Applied statistics for bioinformatics using R by Wim P. Krijnen 2. Introduction to statistical learning with applications in R by Gareth james et al. 3. Applied statistical genetics with R by Andrea S. Foulkes |
준비사항 |
최신 버전 R 프로그램 (https://cran.r-project.org/) |