Подробное графическое объяснение биометрического формата VCF (информация о вариантах)
Подробное графическое объяснение биометрического формата VCF (информация о вариантах)

1. Знакомство с форматом vcf

vcf (формат вызова вариантов) — это метод, используемый для хранения информации о вариациях в последовательностях генома.

  • Обычно используется при вариациях отдельных нуклеотидов (SNV), небольших вставках и делециях (INDEL) и т. д.
  • Также используется для изменения количества копий (CNV), SV (структурных изменений) и т. д.
  • SNV: эталонный геном — это C на хромосоме 1 7845190, но тестовый образец — это A в той же позиции.
  • INDEL: включает как вставку, так и удаление.
    • Вставка: определенный фрагмент эталонного генома ACTTG, но то же самое положение образца обнаружения ACCCTTG, CC вставлен
    • Удаление: определенный фрагмент эталонного генома удаляется. TTCGG, но то же положение образца обнаружения ТТГГ, отсутствует C

2. файл ресурсов vcf

Приведенные здесь примеры файлов взяты из проекта «1000 геномов», а данные в основном представляют собой данные о человеческих вариациях в разных регионах.

Источник данных: https://www.internationalgenome.org/.

Загрузка данных: https://s3.amazonaws.com/1000genomes/release/20130502/ALL.wgs.phase3_shapeit2_mvncall_integrated_v5b.20130502.sites.vcf.gz

Или https://ftp.1000genomes.ebi.ac.uk//vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

Пример данных

Язык кода:javascript
копировать
#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO
1	10177	rs367896724	A	AC	100	PASS	AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10235	rs540431307	T	TA	100	PASS	AC=6;AF=0.00119808;AN=5008;NS=2504;DP=78015;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0.0051;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10352	rs555500075	T	TA	100	PASS	AC=2191;AF=0.4375;AN=5008;NS=2504;DP=88915;EAS_AF=0.4306;AMR_AF=0.4107;AFR_AF=0.4788;EUR_AF=0.4264;SAS_AF=0.4192;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10505	rs548419688	A	T	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9632;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10506	rs568405545	C	G	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9676;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10511	rs534229142	G	A	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9869;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10539	rs537182016	C	A	100	PASS	AC=3;AF=0.000599042;AN=5008;NS=2504;DP=9203;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.001;AA=.|||;VT=SNP
1	10542	rs572818783	C	T	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9007;EAS_AF=0.001;AMR_AF=0;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10579	rs538322974	C	A	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=5502;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10616	rs376342519	CCGCCGTTGCAAAGGCGCGCCG	C	100	PASS	AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL
1	10642	rs558604819	G	A	100	PASS	AC=21;AF=0.00419329;AN=5008;NS=2504;DP=1360;EAS_AF=0.003;AMR_AF=0.0014;AFR_AF=0.0129;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	11008	rs575272151	C	G	100	PASS	AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2232;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP
1	11012	rs544419019	C	G	100	PASS	AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2090;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP

3. Подробное объяснение файла VCF.

Обычно файл состоит из двух частей:

  • Информация о комментарии (заголовок): расположена в начале файла, каждая строка начинается с #начинать
  • Информация о мутации (тело): Нет #Это рекордиз Информация о вариациях

3.1 Основные поля

Поля, выделенные жирным шрифтом, обязательны для заполнения

Поле

описывать

Пример

CHROM

Номер хромосомы, обратите внимание, что префикс chr не обязателен.

1

POS

Место вариации INDEL — это первая базовая позиция INDEL.

10616

ID

Номер dbSNP, .

rs376342519

REF

Основы эталонного генома, то есть аллели

CCGCCGTTGCAAAGGCGCGCCG

ALT

Обнаружение оснований образца. Если в одной и той же позиции находится несколько оснований, они разделяются.

C

QUAL

Значение качества Phred указывает на возможность изменения на измененном сайте. Чем выше оценка, тем она надежнее, но в то же время необходимо учитывать такие факторы, как глубина секвенирования и охват. . означает, что поле остается пустым, но не означает, что значение качества равно 0.

100

FILTER

Флаг фильтра, если он PASS, считается мутацией

PASS

INFO

Для получения подробной информации используйте Представлено в формате ключ=значение. ключ Обычно аббревиатура, а именно «описатьсуществоватьдокумент», начинающаяся с «из». header lines отображается в.

AC=4973;AF=0.993011;AN=5008;VT=INDEL

FORMAT

Необязательный вариант формата сайта, включая GT, AD, DP, GQ, PL/GT, AD, DP, GQ, PGT, PID, PL, PS.

GT:DP:GQ:PL

SAMPLEs

Дополнительно, значения для отдельных образцов, SM-теги из BAM-файла @RG. Обычно каждый образец соответствует одному столбцу, поэтому в файле будет более десяти столбцов. Каждый образец будет соответствовать формату столбца ФОРМАТ. Различные форматы разделяются:

0/1:50:99:0,20,200

3.2 Общая информация в INFO

Поле

полное имя

описывать

Пример

AA

Ancestral Allele

аллель, присутствующая у общего предка популяции или вида

AA=A

AC

Allele Count

Сколько раз вариант аллели (столбец ALT) появляется в коллекции образцов. Если существует несколько ALT, разделите их с помощью ,

AC=4973

AF

Alternate Allele Frequency

Частота этого варианта в выборочной коллекции. Для 1000 геномов EAS_AF, AMR_AF, AFR_AF, EUR_AF и SAS_AF представляют частоты аллелей популяций Восточной Азии, Америки, Африки, Европы и Южной Азии соответственно.

AF=0.993011

AN

Allele Number

Общее количество аллелей для этого варианта. На примере диплоидных организмов: если образец гетерозиготен (генотип 0/1), значение AN равно 1, что означает, что мутирует только один аллель модифицированного сайта. Если образец гомозиготен (генотип 1/1), значение AN равно 2.

AN=5008

DP

Read Depth

Глубина секвенирования вариантного сайта, то есть охват чтения модифицированного сайта.

DP=2365

MQ

Mapping Quality

При сравнении этого варианта среднее качество чтения

MQ=100

QD

Quality by Depth

Отношение показателя качества варианта (QUAL) к глубине секвенирования (DP). Используется для оценки качества модифицированных сайтов.

QD=0.12

VT

Variant Type

Типы вариаций, обычно включая SNP, MNP, INDEL, SV и т. д.

VT=INDEL

MAF (частота минорного аллеля) частота минорного аллеля

Это измерение можно использовать для получения приблизительного представления о генотипической вариации данного SNP в данной популяции. Другими словами, оно показывает, насколько распространен этот SNP.

EAF (частота аллеля эффекта) влияет на частоту аллеля

По сути, это аллель, и ее связь с заболеванием изучается. Следовательно, аллель эффекта всегда является минорным аллелем.

3.3 Информация в ФОРМАТЕ и ОБРАЗЦАХ

Поле

полное имя

описывать

GT

Genotype

Представляет генотип. Для диплоидных образцов используйте два числа, разделенные / или `

AD

Allele Depth

Прочтите покрытие аллелей в образце. У диплоидов 1000 и 1100 разделяются запятыми, первое — REF, второе — ALT.

DP

Read Depth

Читает освещение этого сайта

GQ

Genotype Quality

Значение качества генотипа указывает на вероятность генотипа. Чем выше значение, тем больше вероятность. Расчет: Значение Phred=-10log10§, p — вероятность ошибки генотипа.

PL

Provieds the Likelihoods of the given genotypes

Значения качества трех генотипов равны 0/0, 0/1 и 1/1. Сумма вероятностей трех генотипов равна 1. Чем меньше значение, тем больше вероятность того, что это генотип. Значение Phred также рассчитывается, но p — это вероятность существования генотипа.

PGT

Phased Genotype

Встречается только в образцах, прошедших фазовое разделение. Чтобы представить генотип после разделения фаз, используйте ` между двумя числами.

PID

Phase ID

описываем фазу генотипа из идентификатора.

PS

Phase Set

описывать фазу генотипа по информации в том же образце.

Фазирование — это процесс определения того, от какого родителя происходит аллель, которую человек несет в определенном генетическом локусе.

GT Полесерединаиз /Указывает на то, что генотип не является поэтапным.,Указывает на то, что мы не уверены, какой ген ожидания происходит от отца или матери.

GT Полесерединаиз |Представляет фазировку генотипа,Другими словами, можно определить исходного родителя гена ожидания и z.

4. Режим записи vcf

Файлы VCF могут записывать информацию о вариантах на разных уровнях: от отдельных вариантов до вариантов у отдельных людей, тканей, популяций или семей.

4.1 Записывайте только информацию о самой мутации

Обычно используется для конкретных вариантов характеристик и не включает конкретную индивидуальную или групповую информацию.

Язык кода:javascript
копировать
#CHROM POS     ID        REF    ALT    QUAL FILTER INFO
1      69511   rs75062661 G      A      99    PASS   AC=1;AF=0.0002;AN=5008;NS=2504;DP=2184;EAS_AF=0;AMR_AF=0.0008;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.0007;VT=SNP

4.2 Запись информации о вариациях отдельных лиц или отдельных тканей

Обычно в конце файла VCF есть один или несколько столбцов образцов, где каждый столбец представляет отдельного человека или определенную ткань человека.

Язык кода:javascript
копировать
#CHROM POS     ID        REF    ALT    QUAL FILTER INFO                             FORMAT          sample1
1      899282  rs123456  A      G,T    50    PASS   AC=2;AF=0.5;AN=4;NS=1;DP=100   GT:DP:GQ:PL     0/1:50:99:0,20,200

4.3 Запишите информацию о вариациях популяции или семьи.

Данные, включающие несколько образцов, можно использовать для популяционного генетического анализа.

Язык кода:javascript
копировать
#CHROM POS     ID         REF    ALT    QUAL FILTER INFO                             FORMAT          Person1      Person2      Person3
1      945874  rs7891011  A      G      99    PASS   AC=3;AF=0.75;AN=4;NS=3;DP=300  GT:DP:GQ:PL     0/1:100:99:0,20,200  1/1:100:99:0,0,100  0/0:100:99:0,0,0

1000 genomes Относительно специфично: частоты аллелей разных популяций находятся в INFO серединас разнымииз Полевыражать

Язык кода:javascript
копировать
1	10177	rs367896724	A	AC	100	PASS	AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL

5. Стандарты записи

Обратите внимание, что этот стандарт не требуется спецификацией vcf, но для последующего объединения и интерпретации образцов лучше всего следовать следующим стандартам.

И GATK, и bcftools предоставляют соответствующие стандартизированные инструменты.

5.1 Документирование мультинуклеотидного полиморфизма (MNP)

Язык кода:javascript
копировать
REF: GGGCATGGG
ALT: GGGTGCGGG

Существует четыре метода выражения:

Слева — сравнение эталонного генома (REF) и тестового образца (ALT). Один цвет — метод записи.

Правая часть — это то, как она представлена ​​в файле vcf.

Итак, как выразить вариации с использованием как можно меньшего количества нуклеотидов и сократить количество избыточных записей.

Первые три содержат одинаковую избыточную информацию слева и справа. Очевидно, что наиболее подходящим является последний, содержащий только сайты мутаций.

Пример в vcf:

Язык кода:javascript
копировать
12	6608369	ss1388023103	CTTTCTTTCT	ATTTCTTTCT	100	PASS	AC=2;AF=0.000399361;AN=5008;NS=2504;DP=18116;EAS_AF=0;AMR_AF=0;AFR_AF=0;EUR_AF=0.002;SAS_AF=0;VT=MNP

5.2 Удаление или вставка записи (INDEL)

Язык кода:javascript
копировать
REF: GGGCACACACAGGG
ALT: GGGCACACAGGG

Длина всех аллельных сайтов остается постоянной, а положение мутации нельзя перемещать влево, в том числе для уменьшения избыточных записей.

Последний может как привязать сайт удаления, так и отобразить удаление.

удаление в файле vcf

Язык кода:javascript
копировать
1	43098430	rs534335349	TC	T	100	PASS	AC=3;AF=0.000599042;AN=5008;NS=2504;DP=18120;EAS_AF=0.001;AMR_AF=0;AFR_AF=0.0015;EUR_AF=0;SAS_AF=0;AA=?|C|-|unsure;VT=INDEL

Вставка в файл vcf

Язык кода:javascript
копировать
12	6607940	rs150221708	A	AT	100	PASS	AC=695;AF=0.138778;AN=5008;NS=2504;DP=16205;EAS_AF=0.0089;AMR_AF=0.1412;AFR_AF=0.1392;EUR_AF=0.2097;SAS_AF=0.1973;AA=TTTTTT|TTTTTT|TTTTTTT|insertion;VT=INDEL

5.3 Регистрация структурных изменений (SV)

Это невероятно сложно, но в качестве альтернативы, конечно, существует формат файла Bedpe.

REF

ALT

описывать

s

t[p[

Фрагмент p заменяет s с позиции t, начиная справа.

s

t]p]

Фрагмент p переворачивается (слева), заменяя s на позиции t.

s

]p]t

Фрагмент p заменяет s на позиции перед t, начиная справа.

s

[p[t

Фрагмент p переворачивается (слева), заменяя s с позиции перед t

6. Примеры

Эта строка взята из данных в начале статьи.

Язык кода:javascript
копировать
1	10616	rs376342519	CCGCCGTTGCAAAGGCGCGCCG	C	100	PASS	AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL

Объясните по порядку:

  • ХРОМ: 1 — Мутация происходит на хромосоме 1.
  • POS: 10616 — Мутация происходит в основании 10616 хромосомы.
  • ID: rs376342519 - Вариант из референсбазы данныеID, вот dbSNPбаза данныхсерединаизID。
  • ССЫЛКА: CCGCCGTTGCAAAGGCGCGCCG — базовая последовательность эталонной последовательности генома в этом положении.
  • ALT: C — Мутантная последовательность оснований, показанная здесь как одно основание C, указывает на то, что относительно эталонной последовательности оставшиеся части (CGCCGTTGCAAAGGCGCGCCG) были удалены.
  • QUAL: 100 — показатель качества обнаружения вариантов. 100 означает, что качество высокое.
  • ФИЛЬТР: ПРОЙДЕН - Вариант прошел контроль качества.
  • INFOПоле:
    • AC: 4973 - Количество аллелей (Аллель Подсчитайте), что указывает на то, что во всех образцах имеется 4973 таких вариантных аллеля.
    • AF: 0.993011 - Частота аллеля (Аллель Частота), что указывает на то, что среди всех обнаруженных аллелей почти все (примерно 99,3%) относятся к этому вариантному аллелю.
    • AN: 5008 - Общее количество аллелей (Allele Число), обозначающее общее количество аллелей во всех образцах.
    • NS: 2504 - Номер образца (Количество of Samples), что указывает на то, что для обнаружения этой мутации было использовано 2504 образца.
    • DP: 2365 - Глубина секвенирования (Глубина of Покрытие), указывающее глубину секвенирования в различных позициях во всех образцах.
    • различные группы Частота аллеля (Аллель Frequency by Population):
      • EAS_AF: 0,9911 — частота аллелей в популяциях Восточной Азии.
      • AMR_AF: 0,9957 — частота аллелей в американском населении.
      • AFR_AF: 0,9894 — Частота аллелей в африканских популяциях.
      • EUR_AF: 0,994 — Частота аллелей в европейских популяциях.
      • SAS_AF: 0.9969 - Частоты аллелей в популяциях Южной Азии.
  • VT: INDEL — тип варианта, здесь представляет событие вставки/удаления.

В совокупности эта строка записей показывает, что существует очень распространенная мутация INDEL на хромосоме 1, с очень высокой частотой в разных популяциях, почти близкая к фиксированной. Другими словами, этот вариант широко распространен в коллекции образцов.

Вот небольшая игра под названием Lianliankan, которая поможет вам понять.

https://www.ebi.ac.uk/training/online/courses/human-genetic-variation-introduction/variant-identification-and-analysis/understanding-vcf-format/


https://samtools.github.io/hts-specs/VCFv4.2.pdf

https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода