MSA, Hometask 1

1.

Скачать данные Plasmodium falciparum chromosome 13: ftp://ftp.ncbi.nlm.nih.gov/genomes/Protozoa/Plasmodium_falciparum/NC_004317.gbk или скачиваем chtomosome 13 и ее аннотацию с ncbi. http://www.ncbi.nlm.nih.gov/genome/?term=Plasmodium+falciparum

Задание 2.

Прочесть позиции начал кодирующих регионов из gbk файла (CDS FEATURES). Позиции, в которых встречаются “<” или “>”, игнорировать(обозначают, что точные позиции начала или конца региона не известны).

Файл с результатами

Задание 3.

Вывести в файл последовательности нуклеотидов для начал сайтов трансляции(+- 10 нуклеотидов от первой позиции трансляции, т.е. всего 21 нуклеотид). Неизвестные нуклеотиды ‘N’ не надо учитывать. Если кодирующий регион идет “не последовательно”, то надо считывать только кодирующую область. (Например, если кодирующая область join(1000..1008,1200..1500), то начальная позиция +10 будет соответствовать координате 1201).

Файл с результатами

Задание 4.

Делим хромосому на 2 выборки (сайты трансляции, которые начинаются в первой половине хромосомы обучающий набор, остальные тестовый). Далее работаем с обучающей выборкой. Посчитайте частоту встречаемости нуклеотидов для каждой позиции сайта трансляции(PFM).

Отнесем к обучающему набору сайты трансляции, первая позиция находится принадлежит диапазону [1,1645935] (правая граница получена как 3291871/2 - половина длины нуклеотидной последовательности), остальные сайты трансляции отнесем к тестовому набору

Обучающая выборка Тестовые данные

nucleotide \ position	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21
Sum	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382
A	160	140	162	165	164	187	196	301	245	226	382	0	0	175	197	136	176	200	165	168	172
C	27	18	22	28	20	22	52	17	25	20	0	0	0	26	59	33	31	34	45	49	50
G	34	32	35	31	45	31	27	26	33	50	0	0	382	128	52	44	101	41	43	75	34
T	161	192	163	158	153	142	107	38	79	86	0	382	0	53	74	169	74	107	129	90	126

nucleotide \ position	1.0	2.0	3.0	4.0	5.0	6.0	7.0	8.0	9.0	10.0	11.0	12.0	13.0	14.0	15.0	16.0	17.0	18.0	19.0	20.0	21.0
A	0.419	0.366	0.424	0.432	0.429	0.49	0.513	0.788	0.641	0.592	1.0	0.0	0.0	0.458	0.516	0.356	0.461	0.524	0.432	0.44	0.45
C	0.071	0.047	0.058	0.073	0.052	0.058	0.136	0.045	0.065	0.052	0.0	0.0	0.0	0.068	0.154	0.086	0.081	0.089	0.118	0.128	0.131
G	0.089	0.084	0.092	0.081	0.118	0.081	0.071	0.068	0.086	0.131	0.0	0.0	1.0	0.335	0.136	0.115	0.264	0.107	0.113	0.196	0.089
T	0.421	0.503	0.427	0.414	0.401	0.372	0.28	0.099	0.207	0.225	0.0	1.0	0.0	0.139	0.194	0.442	0.194	0.28	0.338	0.236	0.33

Задание 5.

Используя найденные последовательности в пункте 2, постройте лого с помощью weblogo. img/file1yI7iI.png

Задание 6.

Посчитать матрицу весов(position specific scoring matrix), используя результаты, полученные в пункте 4.

Prior	Pos	1.0	2.0	3.0	4.0	5.0	6.0	7.0	8.0	9.0	10.0	11.0	12.0	13.0	14.0	15.0	16.0	17.0	18.0	19.0	20.0	21.0
1.0	Sum	-0.108	-0.265	-0.165	-0.129	-0.093	-0.215	0.046	-0.526	-0.215	-0.1	-1.524	-1.528	-0.301	0.362	0.328	0.065	0.359	0.028	0.178	0.431	0.128
0.407	A	0.015	-0.05	0.022	0.031	0.028	0.097	0.123	0.385	0.254	0.205	0.548	-0.692	-0.692	0.062	0.126	-0.064	0.065	0.135	0.031	0.04	0.053
0.092	C	-0.118	-0.274	-0.202	-0.102	-0.237	-0.202	0.22	-0.293	-0.151	-0.237	-0.688	-0.688	-0.688	-0.134	0.297	-0.026	-0.056	-0.011	0.136	0.185	0.197
0.093	G	-0.02	-0.049	-0.006	-0.064	0.127	-0.064	-0.126	-0.142	-0.035	0.187	-0.692	-0.692	1.773	0.835	0.21	0.114	0.655	0.076	0.102	0.443	-0.02
0.409	T	0.015	0.108	0.022	0.006	-0.01	-0.047	-0.171	-0.475	-0.284	-0.254	-0.693	0.544	-0.693	-0.401	-0.305	0.04	-0.305	-0.171	-0.091	-0.238	-0.102

Задание 7.

Используя матрицу весов, постройте гистограмму scores для

известных начал CDS в обучающем наборе (из пунктов 12)
всех подпоследовательностей во всей хромосоме. Приблизить это распределение нормальным.
сводный график (зеленым - гистограмма a, красным - гистограмма b)
сводный график 2 (зеленым - гистограмма a, красным - гистограмма b - отличие в том, что данные для гистограммы b берутся по последовательности, а не генерируются)

Задание 8.

По данным, полученным в предыдущем пункте, постройте график FP, FN в зависимости от отсечки для score, по которой определяется, что последовательность в хромосоме это CDS. img/fp_fn_plot1.svg

То же самое нормализованное: img/fp_fn_plot2.svg

Задание 9.

С использованием значения отсечки, которое кажется вам разумным, проведите поиск CDS во второй половине хромосомы и проанализируйте результат (FP, FN, sensitivity, speciﬁcity, and PPV).

Я взяла отсечку 2.5, и вот что получилось:

Файл с результатами

nucleotide \ position	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21
Sum	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382
A	160	140	162	165	164	187	196	301	245	226	382	0	0	175	197	136	176	200	165	168	172
C	27	18	22	28	20	22	52	17	25	20	0	0	0	26	59	33	31	34	45	49	50
G	34	32	35	31	45	31	27	26	33	50	0	0	382	128	52	44	101	41	43	75	34
T	161	192	163	158	153	142	107	38	79	86	0	382	0	53	74	169	74	107	129	90	126

nucleotide \ position	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21
Sum	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382
A	160	140	162	165	164	187	196	301	245	226	382	0	0	175	197	136	176	200	165	168	172
C	27	18	22	28	20	22	52	17	25	20	0	0	0	26	59	33	31	34	45	49	50
G	34	32	35	31	45	31	27	26	33	50	0	0	382	128	52	44	101	41	43	75	34
T	161	192	163	158	153	142	107	38	79	86	0	382	0	53	74	169	74	107	129	90	126

nucleotide \ position	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21
Sum	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382	382
A	160	140	162	165	164	187	196	301	245	226	382	0	0	175	197	136	176	200	165	168	172
C	27	18	22	28	20	22	52	17	25	20	0	0	0	26	59	33	31	34	45	49	50
G	34	32	35	31	45	31	27	26	33	50	0	0	382	128	52	44	101	41	43	75	34
T	161	192	163	158	153	142	107	38	79	86	0	382	0	53	74	169	74	107	129	90	126