В процессе обнаружения мутаций GATK, когда мы вызываем HaplotypeCaller, мы можем выбрать вывод файла GVCF или файла VCF. В чем разница между ними?
Сходства и различия между GVCF и VCF
Прежде всего, оба файла представляют собой файлы VCF, состоящие из ЗАГОЛОВКА и ЗАПИСИ.
Разница в том, что файл GVCF записывает больше информации, причем больше информации относится к покрытию неизмененных сайтов. На рисунке ниже мы можем интуитивно увидеть разницу между ними:
Как видите, существует два типа файлов GVCF: один — -erc gvcf, а другой — -erc. bp_solve, разница между этими двумя файлами gvcf заключается в том, что когда первый файл GVCF записывает сайты без мутаций, он записывается в виде блоков, тогда как второй файл GVCF одинаково обрабатывает сайты без мутаций и сайты с мутациями. Первый метод. Это так. для эффективного сжатия количества строк и размера файла и не влияет на последующий анализ, поэтому здесь рекомендуется использовать прежний файл GVCF.
Обычно после того, как GVCF фильтруется с использованием тех же условий фильтра, что и FilterMutectCalls, его результат совпадает с изменением PASS VCF.
Зачем использовать GVCF
Зачем использовать А как насчет файлов GVCF вместо файлов VCF? Основная причина здесь в том, что при объединении файлов VCF из нескольких образцов необходимо различать ./ и 0/0.
./. — это необнаруженный генотип, а 0/0 — немутированный генотип. Если вы используете для слияния только обычные файлы VCF, вы не сможете различить эти две ситуации, что приведет к искажению результатов слияния.
Фактически, мы также можем напрямую объединить файл GVCF и файл VCF с помощью слияния bcftools, но результаты, полученные таким способом, будут предвзятыми, поскольку файл VCF не имеет неизмененных сайтов.
В целом преимуществом GVCF является то, что с его помощью можно более удобно объединить GVCF группы образцов для дальнейшего анализа и повысить эффективность анализа.
Подробное объяснение содержимого FORMAT файла VCF.
КАЧЕСТВО: Относится к возможности правильно определить вариант сайта вызывающей стороной, что является применением оценки качества по шкале phred.
Связь между GT, GQ и PL:
GT относится к наиболее вероятному генотипу этого локуса.
GQ – значение PL второго наиболее вероятного генотипа в этом локусе.
PL — нормализованная вероятность, соответствующая разным генотипам.
Для диплоидных организмов PL имеет три значения, соответствующие 0/0, 0/1 и 1/1. Наиболее вероятный генотип имеет значение PL, равное 0, а второй по величине генотип является вторым наиболее вероятным. GQ отражает значение PL второго наименьшего генотипа. Если значение превышает 99, оно позиционируется на 99, поскольку, если оно превышает 99, оно вряд ли может угрожать первому возможному статусу.
Метод расчета:
PL(0/1) = 0
(the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,
but the next PL is PL(1/1) = 26
(which corresponds to 10^(-2.6), or 0.0025).
Разница между QUAL и GQ:
Подвести итог
Ссылки
Краткая книга: https://www.jianshu.com/p/35935e257ccf.
CSDN:https://www.cnblogs.com/timeisbiggestboss/p/9134733.html