GVCF и VCF в процессе обнаружения мутаций передовой практики GATK
GVCF и VCF в процессе обнаружения мутаций передовой практики GATK

В процессе обнаружения мутаций GATK, когда мы вызываем HaplotypeCaller, мы можем выбрать вывод файла GVCF или файла VCF. В чем разница между ними?

Сходства и различия между GVCF и VCF

Прежде всего, оба файла представляют собой файлы VCF, состоящие из ЗАГОЛОВКА и ЗАПИСИ.

Разница в том, что файл GVCF записывает больше информации, причем больше информации относится к покрытию неизмененных сайтов. На рисунке ниже мы можем интуитивно увидеть разницу между ними:

Как видите, существует два типа файлов GVCF: один — -erc gvcf, а другой — -erc. bp_solve, разница между этими двумя файлами gvcf заключается в том, что когда первый файл GVCF записывает сайты без мутаций, он записывается в виде блоков, тогда как второй файл GVCF одинаково обрабатывает сайты без мутаций и сайты с мутациями. Первый метод. Это так. для эффективного сжатия количества строк и размера файла и не влияет на последующий анализ, поэтому здесь рекомендуется использовать прежний файл GVCF.

Обычно после того, как GVCF фильтруется с использованием тех же условий фильтра, что и FilterMutectCalls, его результат совпадает с изменением PASS VCF.

Зачем использовать GVCF

Зачем использовать А как насчет файлов GVCF вместо файлов VCF? Основная причина здесь в том, что при объединении файлов VCF из нескольких образцов необходимо различать ./ и 0/0.

./. — это необнаруженный генотип, а 0/0 — немутированный генотип. Если вы используете для слияния только обычные файлы VCF, вы не сможете различить эти две ситуации, что приведет к искажению результатов слияния.

Фактически, мы также можем напрямую объединить файл GVCF и файл VCF с помощью слияния bcftools, но результаты, полученные таким способом, будут предвзятыми, поскольку файл VCF не имеет неизмененных сайтов.

В целом преимуществом GVCF является то, что с его помощью можно более удобно объединить GVCF группы образцов для дальнейшего анализа и повысить эффективность анализа.

Подробное объяснение содержимого FORMAT файла VCF.

КАЧЕСТВО: Относится к возможности правильно определить вариант сайта вызывающей стороной, что является применением оценки качества по шкале phred.

Связь между GT, GQ и PL:

GT относится к наиболее вероятному генотипу этого локуса.

GQ – значение PL второго наиболее вероятного генотипа в этом локусе.

PL — нормализованная вероятность, соответствующая разным генотипам.

Для диплоидных организмов PL имеет три значения, соответствующие 0/0, 0/1 и 1/1. Наиболее вероятный генотип имеет значение PL, равное 0, а второй по величине генотип является вторым наиболее вероятным. GQ отражает значение PL второго наименьшего генотипа. Если значение превышает 99, оно позиционируется на 99, поскольку, если оно превышает 99, оно вряд ли может угрожать первому возможному статусу.

Метод расчета:

PL(0/1) = 0 (the normalized value that corresponds to a likelihood of 1.0) as is always the case for the assigned allele,

but the next PL is PL(1/1) = 26 (which corresponds to 10^(-2.6), or 0.0025).

Разница между QUAL и GQ:

Подвести итог

  • При обработке одного образца: файлы VCF можно использовать напрямую.
  • При обработке нескольких образцов: поскольку для слияния используются обычные файлы vcf, невозможно различить ./ и 0/0 (./. — необнаруженный генотип, а 0/0 — немутированный генотип, исказит результаты). . Поэтому при наличии нескольких образцов официальная рекомендация — использовать HaplotypeCaller для обнаружения мутаций в отдельных файлах BAM отдельно, а затем объединить файлы GVCF на следующем этапе после создания файлов GVCF.

Ссылки

Краткая книга: https://www.jianshu.com/p/35935e257ccf.

CSDN:https://www.cnblogs.com/timeisbiggestboss/p/9134733.html

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода