vcf (формат вызова вариантов) — это метод, используемый для хранения информации о вариациях в последовательностях генома.
Приведенные здесь примеры файлов взяты из проекта «1000 геномов», а данные в основном представляют собой данные о человеческих вариациях в разных регионах.
Источник данных: https://www.internationalgenome.org/.
Загрузка данных: https://s3.amazonaws.com/1000genomes/release/20130502/ALL.wgs.phase3_shapeit2_mvncall_integrated_v5b.20130502.sites.vcf.gz
Или https://ftp.1000genomes.ebi.ac.uk//vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz
Пример данных
#CHROM POS ID REF ALT QUAL FILTER INFO
1 10177 rs367896724 A AC 100 PASS AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL
1 10235 rs540431307 T TA 100 PASS AC=6;AF=0.00119808;AN=5008;NS=2504;DP=78015;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0.0051;AA=|||unknown(NO_COVERAGE);VT=INDEL
1 10352 rs555500075 T TA 100 PASS AC=2191;AF=0.4375;AN=5008;NS=2504;DP=88915;EAS_AF=0.4306;AMR_AF=0.4107;AFR_AF=0.4788;EUR_AF=0.4264;SAS_AF=0.4192;AA=|||unknown(NO_COVERAGE);VT=INDEL
1 10505 rs548419688 A T 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9632;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 10506 rs568405545 C G 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9676;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 10511 rs534229142 G A 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9869;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 10539 rs537182016 C A 100 PASS AC=3;AF=0.000599042;AN=5008;NS=2504;DP=9203;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.001;AA=.|||;VT=SNP
1 10542 rs572818783 C T 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9007;EAS_AF=0.001;AMR_AF=0;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 10579 rs538322974 C A 100 PASS AC=1;AF=0.000199681;AN=5008;NS=2504;DP=5502;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 10616 rs376342519 CCGCCGTTGCAAAGGCGCGCCG C 100 PASS AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL
1 10642 rs558604819 G A 100 PASS AC=21;AF=0.00419329;AN=5008;NS=2504;DP=1360;EAS_AF=0.003;AMR_AF=0.0014;AFR_AF=0.0129;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1 11008 rs575272151 C G 100 PASS AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2232;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP
1 11012 rs544419019 C G 100 PASS AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2090;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP
Обычно файл состоит из двух частей:
#
начинать#
Это рекордиз Информация о вариацияхПоля, выделенные жирным шрифтом, обязательны для заполнения
Поле | описывать | Пример |
---|---|---|
CHROM | Номер хромосомы, обратите внимание, что префикс chr не обязателен. | 1 |
POS | Место вариации INDEL — это первая базовая позиция INDEL. | 10616 |
ID | Номер dbSNP, . | rs376342519 |
REF | Основы эталонного генома, то есть аллели | CCGCCGTTGCAAAGGCGCGCCG |
ALT | Обнаружение оснований образца. Если в одной и той же позиции находится несколько оснований, они разделяются. | C |
QUAL | Значение качества Phred указывает на возможность изменения на измененном сайте. Чем выше оценка, тем она надежнее, но в то же время необходимо учитывать такие факторы, как глубина секвенирования и охват. . означает, что поле остается пустым, но не означает, что значение качества равно 0. | 100 |
FILTER | Флаг фильтра, если он PASS, считается мутацией | PASS |
INFO | Для получения подробной информации используйте Представлено в формате ключ=значение. ключ Обычно аббревиатура, а именно «описатьсуществоватьдокумент», начинающаяся с «из». header lines отображается в. | AC=4973;AF=0.993011;AN=5008;VT=INDEL |
FORMAT | Необязательный вариант формата сайта, включая GT, AD, DP, GQ, PL/GT, AD, DP, GQ, PGT, PID, PL, PS. | GT:DP:GQ:PL |
SAMPLEs | Дополнительно, значения для отдельных образцов, SM-теги из BAM-файла @RG. Обычно каждый образец соответствует одному столбцу, поэтому в файле будет более десяти столбцов. Каждый образец будет соответствовать формату столбца ФОРМАТ. Различные форматы разделяются: | 0/1:50:99:0,20,200 |
Поле | полное имя | описывать | Пример |
---|---|---|---|
AA | Ancestral Allele | аллель, присутствующая у общего предка популяции или вида | AA=A |
AC | Allele Count | Сколько раз вариант аллели (столбец ALT) появляется в коллекции образцов. Если существует несколько ALT, разделите их с помощью , | AC=4973 |
AF | Alternate Allele Frequency | Частота этого варианта в выборочной коллекции. Для 1000 геномов EAS_AF, AMR_AF, AFR_AF, EUR_AF и SAS_AF представляют частоты аллелей популяций Восточной Азии, Америки, Африки, Европы и Южной Азии соответственно. | AF=0.993011 |
AN | Allele Number | Общее количество аллелей для этого варианта. На примере диплоидных организмов: если образец гетерозиготен (генотип 0/1), значение AN равно 1, что означает, что мутирует только один аллель модифицированного сайта. Если образец гомозиготен (генотип 1/1), значение AN равно 2. | AN=5008 |
DP | Read Depth | Глубина секвенирования вариантного сайта, то есть охват чтения модифицированного сайта. | DP=2365 |
MQ | Mapping Quality | При сравнении этого варианта среднее качество чтения | MQ=100 |
QD | Quality by Depth | Отношение показателя качества варианта (QUAL) к глубине секвенирования (DP). Используется для оценки качества модифицированных сайтов. | QD=0.12 |
VT | Variant Type | Типы вариаций, обычно включая SNP, MNP, INDEL, SV и т. д. | VT=INDEL |
MAF (частота минорного аллеля) частота минорного аллеля
Это измерение можно использовать для получения приблизительного представления о генотипической вариации данного SNP в данной популяции. Другими словами, оно показывает, насколько распространен этот SNP.
EAF (частота аллеля эффекта) влияет на частоту аллеля
По сути, это аллель, и ее связь с заболеванием изучается. Следовательно, аллель эффекта всегда является минорным аллелем.
Поле | полное имя | описывать |
---|---|---|
GT | Genotype | Представляет генотип. Для диплоидных образцов используйте два числа, разделенные / или ` |
AD | Allele Depth | Прочтите покрытие аллелей в образце. У диплоидов 1000 и 1100 разделяются запятыми, первое — REF, второе — ALT. |
DP | Read Depth | Читает освещение этого сайта |
GQ | Genotype Quality | Значение качества генотипа указывает на вероятность генотипа. Чем выше значение, тем больше вероятность. Расчет: Значение Phred=-10log10§, p — вероятность ошибки генотипа. |
PL | Provieds the Likelihoods of the given genotypes | Значения качества трех генотипов равны 0/0, 0/1 и 1/1. Сумма вероятностей трех генотипов равна 1. Чем меньше значение, тем больше вероятность того, что это генотип. Значение Phred также рассчитывается, но p — это вероятность существования генотипа. |
PGT | Phased Genotype | Встречается только в образцах, прошедших фазовое разделение. Чтобы представить генотип после разделения фаз, используйте ` между двумя числами. |
PID | Phase ID | описываем фазу генотипа из идентификатора. |
PS | Phase Set | описывать фазу генотипа по информации в том же образце. |
Фазирование — это процесс определения того, от какого родителя происходит аллель, которую человек несет в определенном генетическом локусе.
GT Полесерединаиз /
Указывает на то, что генотип не является поэтапным.,Указывает на то, что мы не уверены, какой ген ожидания происходит от отца или матери.
GT Полесерединаиз |
Представляет фазировку генотипа,Другими словами, можно определить исходного родителя гена ожидания и z.
Файлы VCF могут записывать информацию о вариантах на разных уровнях: от отдельных вариантов до вариантов у отдельных людей, тканей, популяций или семей.
Обычно используется для конкретных вариантов характеристик и не включает конкретную индивидуальную или групповую информацию.
#CHROM POS ID REF ALT QUAL FILTER INFO
1 69511 rs75062661 G A 99 PASS AC=1;AF=0.0002;AN=5008;NS=2504;DP=2184;EAS_AF=0;AMR_AF=0.0008;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.0007;VT=SNP
Обычно в конце файла VCF есть один или несколько столбцов образцов, где каждый столбец представляет отдельного человека или определенную ткань человека.
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample1
1 899282 rs123456 A G,T 50 PASS AC=2;AF=0.5;AN=4;NS=1;DP=100 GT:DP:GQ:PL 0/1:50:99:0,20,200
Данные, включающие несколько образцов, можно использовать для популяционного генетического анализа.
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Person1 Person2 Person3
1 945874 rs7891011 A G 99 PASS AC=3;AF=0.75;AN=4;NS=3;DP=300 GT:DP:GQ:PL 0/1:100:99:0,20,200 1/1:100:99:0,0,100 0/0:100:99:0,0,0
1000 genomes Относительно специфично: частоты аллелей разных популяций находятся в INFO серединас разнымииз Полевыражать
1 10177 rs367896724 A AC 100 PASS AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL
Обратите внимание, что этот стандарт не требуется спецификацией vcf, но для последующего объединения и интерпретации образцов лучше всего следовать следующим стандартам.
И GATK, и bcftools предоставляют соответствующие стандартизированные инструменты.
REF: GGGCATGGG
ALT: GGGTGCGGG
Существует четыре метода выражения:
Слева — сравнение эталонного генома (REF) и тестового образца (ALT). Один цвет — метод записи.
Правая часть — это то, как она представлена в файле vcf.
Итак, как выразить вариации с использованием как можно меньшего количества нуклеотидов и сократить количество избыточных записей.
Первые три содержат одинаковую избыточную информацию слева и справа. Очевидно, что наиболее подходящим является последний, содержащий только сайты мутаций.
Пример в vcf:
12 6608369 ss1388023103 CTTTCTTTCT ATTTCTTTCT 100 PASS AC=2;AF=0.000399361;AN=5008;NS=2504;DP=18116;EAS_AF=0;AMR_AF=0;AFR_AF=0;EUR_AF=0.002;SAS_AF=0;VT=MNP
REF: GGGCACACACAGGG
ALT: GGGCACACAGGG
Длина всех аллельных сайтов остается постоянной, а положение мутации нельзя перемещать влево, в том числе для уменьшения избыточных записей.
Последний может как привязать сайт удаления, так и отобразить удаление.
удаление в файле vcf
1 43098430 rs534335349 TC T 100 PASS AC=3;AF=0.000599042;AN=5008;NS=2504;DP=18120;EAS_AF=0.001;AMR_AF=0;AFR_AF=0.0015;EUR_AF=0;SAS_AF=0;AA=?|C|-|unsure;VT=INDEL
Вставка в файл vcf
12 6607940 rs150221708 A AT 100 PASS AC=695;AF=0.138778;AN=5008;NS=2504;DP=16205;EAS_AF=0.0089;AMR_AF=0.1412;AFR_AF=0.1392;EUR_AF=0.2097;SAS_AF=0.1973;AA=TTTTTT|TTTTTT|TTTTTTT|insertion;VT=INDEL
Это невероятно сложно, но в качестве альтернативы, конечно, существует формат файла Bedpe.
REF | ALT | описывать |
---|---|---|
s | t[p[ | Фрагмент p заменяет s с позиции t, начиная справа. |
s | t]p] | Фрагмент p переворачивается (слева), заменяя s на позиции t. |
s | ]p]t | Фрагмент p заменяет s на позиции перед t, начиная справа. |
s | [p[t | Фрагмент p переворачивается (слева), заменяя s с позиции перед t |
Эта строка взята из данных в начале статьи.
1 10616 rs376342519 CCGCCGTTGCAAAGGCGCGCCG C 100 PASS AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL
Объясните по порядку:
В совокупности эта строка записей показывает, что существует очень распространенная мутация INDEL на хромосоме 1, с очень высокой частотой в разных популяциях, почти близкая к фиксированной. Другими словами, этот вариант широко распространен в коллекции образцов.
Вот небольшая игра под названием Lianliankan, которая поможет вам понять.
https://www.ebi.ac.uk/training/online/courses/human-genetic-variation-introduction/variant-identification-and-analysis/understanding-vcf-format/
https://samtools.github.io/hts-specs/VCFv4.2.pdf
https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format