IMPROVING THE ESTIMATION OF LOW SIGNIFICANCE EFFECTS IN BLUP MODELS USING HIERARCHICAL STRUCTURES

Research article
DOI:
https://doi.org/10.60797/JAE.2024.50.1
Issue: № 10 (50), 2024
Suggested:
06.06.2024
Accepted:
12.09.2024
Published:
18.10.2024
47
0
XML
PDF

Abstract

The article presents the results of analysing the application of categorical variables with embedded factors in a mixed model for estimating the breeding value of animals. The use of embedded factors makes it possible to reliably evaluate the influence of the factors included in the model and, consequently, the breeding value of animals. Also, this approach allows for a more detailed description of the influence of levels of hierarchically determined factors. The assessment of the breeding value of an animal when using models with embedded factors does not differ between models, which shows us the correlation coefficient (r=0.97) between the assessments and the range of reliability of the assessment of each animal, which allows to carry out a correct selection of animals.

1. Введение

Применение уравнений смешанных моделей при оценке продуктивных качеств животных позволяет не только получить значения племенной ценности (EBV) животного, но и оценку каждого фактора, входящего в уравнение. Во многих исследованиях при проведении оценки влияния различных факторов – от генетических до средовых – преимущественно они представлены как категориальные переменные. Факторы, учитываемые в таких уравнениях, обычно оцениваются как классификационные эффекты, т.е. каждый фактор проявляется в более чем одном уровне. Отсутствие компоненты взаимодействия в статистической модели приводит к независимой оценке каждого фактора. В зависимости от целей и задач исследований подобный подход видится уместным, однако зачастую ведет к недооценке влияния малозначимых переменных. Решение данного вопроса возможно через применение иерархических моделей со вложенными (nested) факторами, статистически значимо влияющими на изменчивость признака в пределах фактора более высокого уровня. Такой подход позволяет оценивать каждый из них с учётом взаимодействия, а также использовать базы данных со множествами градаций средовых факторов. Во многих исследованиях к категориальным факторам относят неколичественные эффекты, такие как номер лактации, эффект группы содержания (стадо, ферма и т.п.), дату отела, а также генотип животного по какому-либо гену. Включение последнего в уравнение смешанных моделей позволяет оценивать его влияние на продуктивные качества, как отклонение от популяционной константы (среднего значения) с учётом влияния средовых эффектов, а не простым сравнением средних в популяции

,
,
.

Использование иерархических уравнений смешанных моделей со вложенными случайными эффектами позволит проводить оценку факторов, используемых в линейных моделях, в зависимости от уровня влияния и иерархической структуры взаимосвязи между факторами, что даст более точную оценку влияния каждого фактора на изучаемый признак и, как следствие, более точную оценку племенной ценности. В связи с этим цель нашей работы заключалась в определении точности оценки при использовании иерархических моделей смешанного типа со вложенными эффектами по сравнению с моделями с эффектами, оцениваемыми независимо, на примере изменчивости показателей продуктивности и жирнокислотного состава молока.

2. Методы и принципы исследования

Для исследования использовалась база данных, составленная и примененная в предыдущих исследованиях

.

Оценка влияния категориальных факторов на исследуемые признаки проводилась при помощи математических моделей смешанного типа, составленных в рамках методологии BLUP Animal Model Расчёты осуществлялись в программах семейства BLUPF90

. Модель оценки имела следующий вид:

Модель 1: img

Модель 2: img

где yijklm/yijkm – оцениваемый показатель продуктивности или жирнокислотного состава молока;

µ – популяционная константа;

Li – фиксированный эффект i-й лактации;

β – коэффициент линейной регрессии;

DIMj – количество дойных дней;

Seasonk – сезон лактации, в который был произведен отбор образца молока (Зима-весна-лето-осень);

Gl – фиксированный эффект каждого генотипа;

Lgi – фиксированный вложенный эффект «лактация-генотип»;

animalm – рандомизированный эффект m-ой коровы (n=10243 наблюдения) имеющий нормальное распределение со средней, равной 0, и вариансой, равной σa2 (Vara ~ 0, σa2);

eijklm – эффект остатков модели.

Фактор Lg формировался посредством градации каждой лактации на каждый генотип гена AGPAT6.

Достоверность племенной ценности рассчитывалась по формуле:

img

Где, Rel – достоверность, s.e. – стандартная ошибка, Vara – генетическая варианса.

Для расчета наследуемости (h2) использовали отношение генетической вариансы (img) к сумме генетической и остаточной (img) варианс:

img

3. Основные результаты

Применение математических моделей смешанного типа в рамках методологии BLUP с вычислительными возможностями современных программ позволяет проводить одновременный анализ множества факторов, влияющих на продуктивные характеристики оцениваемых объектов. В качестве факторов, влияние которых на исследуемый признак оценивается, могут выступать любые переменные, взаимосвязанные с изменчивостью количественного признака. В животноводстве зачастую используют такие переменные в модели как «стадо» либо «ферма» или «хозяйство», которое по своей сути отражает условия содержания и кормления животного, «год» и «сезон отела» характеризующие условия начала лактации. В случае если исходная база фенотипических данных собирается на основании контрольных доек за период времени, то возможно применить такую переменную, как «сезон лактации»

и также можно в виде фактора ввести такие переменные, как «стадия лактации» и «номер лактации»
. Методология применения факторов в математических моделях также позволяет проводить анализ влияния генотипов однонуклеотидных полиморфизмов генов-маркеров хозяйственно-полезных признаков или кандидатов в них, не ограничиваясь только сравнением средних по популяции, а имея в результате поправку величины признака от популяционного среднего
,
. Являясь по сути градацией уровней, фиксированные факторы между собой возможно объединить в новую градацию т.е. вложенный (nested) фактор, когда каждый фактор проявляет себя только в рамках иного фактора и тем самым они объясняют разные составляющие изменчивости, не демонстрируя линейной зависимости. Единственный момент, не допускающий использование таких факторов в моделях – это применение их, как дополнительных переменных в модели, уже учитывающей их по отдельности. Использование в модели вложенных фиксированных факторов позволяет расширить уровни градации факторов и, соответственно, диапазон их оценки.

Для корректного сравнения возможности использования вложенных факторов в моделях смешанного типа нами были составлены две модели, включавшие в себя один набор факторов, но в одной из моделей эффект «номера лактации» и эффект «генотипа» (ген AGPAT6) были объединены в единый фактор Lgi – фиксированный эффект «лактация-генотип».

Анализ смешанных моделей, реализованный в библиотеке lme4 языка программирования R, позволил получить коэффициенты детерминации (табл.1) для обеих моделей, показывающий насколько составленные модели описывают исследуемый признак.

Таблица 1 - Коэффициенты детерминации

Признак

R2 модель 1

R2 модель 2

МДЖ%

0,495

0,446

МДБ%

N/A

0,675

Казеин

0,681

0,685

Миристиновая (С14:0)

0,723

0,689

Пальмитиновая (С16:0)

0,548

0,512

Стеариновая (С18:0)

0,247

0,236

Олеиновая (С18:1)

0,2

0,197

Длинноцепочечные (LCFA)

0,195

0,189

Среднецепочечные (MCFA)

0,636

0,6

Мононенасыщенные (MUFA)

0,2

0,189

Полиненасыщенные (PUFA)

N/A

0,312

Насыщенные (SFA)

0,505

0,482

Короткоцепочечные (SCFA)

0,478

0,466

Трансизомеры (TFA)

0,306

0,294

Полученные значения коэффициентов детерминации варьировались от 0,2 до 0,72 в зависимости от признака. Так, минимальные коэффициенты были получены для длинноцепочечных ненасыщенных жирных кислот, тогда как максимальные характеризовали описание моделью изменчивости насыщенных среднецепочечных жирных кислот и массовой доли жира и белка. Это согласуется с данными о влиянии учтённых факторов на исследуемые признаки

,
. Для ряда признаков использование большого количества факторов, представленных категориальными переменными, может приводить к возникновению линейной зависимости между ними, ведущей к невозможности их оценки, отражающейся в некорректном расчете коэффициента детерминации (N/A). Применение фиксированных факторов, выраженных вложенными переменными, позволяет избежать ситуаций линейной зависимости факторов, являющихся составной частью переменной, сводя описание разнообразия признака, обусловленного ими, к эффекту их взаимодействия.

Достоверность категориальных факторов составляла p<0,001, для всех переменных (Табл. 2), кроме фактора генотипа в модели 1, где достоверность его влияния статистически незначимой, при этом достоверность вложенного фактора Lgi во второй модели составляла для стеариновой и олеиновой жирных кислот p<0,01, для всех остальных факторов p<0,001. Таким образом, использование вложенных факторов позволяет рассматривать факторы, малозначимые по отдельности, в рамках их влияния внутри более значимого, как за счет увеличения количества градаций факторов, так и за счёт снижения внутригрупповых различий при сохранении или увеличения межгрупповых.

Таблица 2 - Уровень достоверности категориальных факторов обеих моделей оценки

P-value

Lgi

Seasonk

Animalm

Li

Gl

МДЖ%

<2,20e-16

<2,20e-16

<2,20e-16

5,404e-15

0,1902

МДБ%

4,45e-13

<2,20e-16

<2,20e-16

7,769e-08

0,9999

Казеин

<2,20e-16

<2,20e-16

<2,20e-16

4,165e-10

1

С14:0

<2,20e-16

<2,20e-16

<2,20e-16

<2,20e-16

0,9327

С16:0

<2,20e-16

<2,20e-16

<2,20e-16

<2,20e-16

0,1245

С18:0

0,002752

<2,20e-16

<2,20e-16

0,001029

0,306399

С18:1

0,004667

<2,20e-16

<2,20e-16

0,0009189

0,8618825

LCFA

2,96e-05

<2,20e-16

<2,20e-16

6,004e-06

0,539

MCFA

<2,20e-16

<2,20e-16

<2,20e-16

<2,20e-16

0,3514

MUFA

1,93e-05

<2,20e-16

<2,20e-16

0,0002978

0,7479924

PUFA

2,98e-11

<2,20e-16

<2,20e-16

9,478e-15

0,9999

SFA

1,19e-14

<2,20e-16

<2,20e-16

8,574e-10

0,1672

SCFA

4,78e-08

<2,20e-16

<2,20e-16

5,677e-05

0,3783

TFA

5,76e-05

<2,20e-16

<2,20e-16

2,724e-06

1

Данное утверждение также подтверждается тем, что доля дисперсии факторов в общей дисперсии признаков, отличалась в зависимости от модели оценки признака (Табл.3). При этом доля дисперсии вложенных факторов составляла примерно среднее значение долей дисперсии объединенных факторов.

Таблица 3 - Доля дисперсии вложенных и отдельных факторов

Lgi (Модель 2)

Li (Модель 1)

G l(Модель 1)

МДЖ, %

6,17

12,82

0,7

МДБ, %

2,02

1,3

0,00

Казеин, %

2,52

1,62

0,00

С14:0, %

13,03

20,53

0,05

С16:0, %

5,56

10,49

1,18

С18:0, %

1,02

1,84

0,38

С18:1, %

0,9

2,08

0,04

LCFA, %

1,49

1,86

0,14

MCFA, %

7,78

14,44

0,65

MUFA, %

1,86

3,23

0,08

PUFA, %

3,91

6,38

0,00

SFA, %

3,39

6,66

0,81

SCFA, %

2,19

4,38

0,38

TFA, %

1,56

2,45

0,00

Наследуемость каждого признака при расчете его оценки обеими моделями не демонстрировала существенных различий и соответствовала результатам, полученным нами в предыдущих исследованиях

.

Построение математических моделей смешанного типа и последующее их применение в рамках методологии BLUP в первую очередь предназначено для оценки племенной ценности животного (EBV) по исследуемому признаку. Особенно важна достоверность получаемых оценок. Анализ этого параметра в нашем исследовании представлен в таблице 4.

Таблица 4 - Достоверность EBV обеих моделей

Модель 1

Модель 2

МДЖ, %

62,0-96,3

51,0-96,1

МДБ, %

71,9-97,4

62,4-97,5

Казеин, %

72,9-97,5

63,2-97,5

С14:0, %

83,0-98,3

72,9-98,2

С16:0, %

71,0-97,3

60,4-97,3

С18:0, %

46,1-93,6

38,6-93,5

С18:1, %

36,6-91,1

31,4-90,9

LCFA, %

35,1-90,5

30,0-90,3

MCFA, %

76,1-97,8

65,4-97,7

MUFA, %

35,4-90,6

30,0-90,3

PUFA, %

51,7-94,7

43,6-94,7%

SFA, %

64,7-96,6

54,4-96,6

SCFA, %

61,5-96,2

52,0-96,3

TFA, %

54,6-95,1

45,8-95,1

Примечание: мин.-макс. значения

Достоверность племенной ценности зависит в первую очередь от количества наблюдений для каждого животного в выборке и разнообразием признака. Как было показано ранее (табл.1), дисперсия признаков в обеих моделях практически не отличалась, но все-таки минимальные отличия присутствовали. Исходя из этого, можно судить, что у животных с меньшим числом наблюдений достоверность оценки племенной ценности демонстрировала минимальные значения, отличающиеся между моделями.

Также сравнивая оценки племенной ценности, стоит обратить внимание на ранжирование животных и на фактические значения оценок в обеих моделях. Коэффициент корреляции между массивами оценок составлял r = 0,97, что свидетельствует о возможности проводить корректный отбор животных при оценке их любой моделью.

В рамках нашего исследования, получив новую градацию вложенных факторов – Lg, представляющую собой комбинацию факторов «номер лактации» и «генотип гена липидного обмена AGPAT6», мы имеем возможность оценить влияние генотипов AGPAT6 на изменчивость исследуемого признака в рамках каждой из учтённых лактаций, в то время как при использовании каждого из эффектов по отдельности, полученные оценки характеризовали общее влияния факторов в представленной выборке. В данном примере использование вложенных эффектов актуально по той причине, что молочный жир и особенно состав жирных кислот имеют сложные пути синтеза и регулировки экспрессии липидного обмена, которые различаются не только по стадиям, но и зависят от возраста особи, выраженного в номере лактации

,
.

Влияние номера лактации на содержание длинно- и среднецепочечных жирных кислот

Рисунок 1 - Влияние номера лактации на содержание длинно- и среднецепочечных жирных кислот

Влияние генотипа AGPAT6 на содержание длинно- и среднецепочечных жирных кислот

Рисунок 2 - Влияние генотипа AGPAT6 на содержание длинно- и среднецепочечных жирных кислот

Так, при использовании модели 1, мы можем оценить влияние факторов на исследуемый признак в целом по выборке. Например, мы видим, что с ростом номера лактации увеличивается содержание среднецепочечных жирных кислот, и наоборот – снижение содержания длинноцепочечных (Рис.1), а также позитивное влияние аллель G гена AGPAT6 на содержание жирных кислот (Рис.2).
Оценки влияния вложенного фактора Lg на содержание длинно- и среднецепочечных жирных кислот

Рисунок 3 - Оценки влияния вложенного фактора Lg на содержание длинно- и среднецепочечных жирных кислот

При использовании вложенного фактора (Рис. 3) видно, что чёткая дифференциация оценок от генотипа начинается со второй лактации, но в общей картине также повторяет тренд, полученный в модели 1, за исключением первой лактации. Полученные данные согласуются с ранее полученными результатами
, а также более детально отражают процесс работы синтетаз жирных кислот у коров-первотелок и коров последующих лактаций
.

4. Заключение

Оценив возможность применения вложенных факторов в моделях смешанного типа для оценки племенной ценности животных, а также влияния категориальных переменных, используемых в модели, можно констатировать, что получаемые результаты мало отличимы от данных, получаемых в ходе обычного анализа факторов. Не было выявлено существенного влияния объединения эффектов модели в один на итоговые оценки племенной ценности и параметры их достоверности. Однако такой подход позволяет проводить более детальный анализ влияния малозначимых факторов на изменчивость признака на популяционном уровне в рамках более значимых компонент изменчивости. Применение вложенных факторов позволяет получать достоверные результаты для подобных эффектов, в случае если их влияние на изменчивость исследуемого признака по отдельности недостоверно. Это происходит как за счет увеличения градаций факторов, так и разнообразия между этими градациями. Полученные результаты могут быть предпосылкой для апробации использования статистических моделей со вложенными факторами в оценке племенной ценности животных, а также применения более сложных иерархий факторов с тремя и более уровнями.

Article metrics

Views:47
Downloads:0
Views
Total:
Views:47