Решено: ggplot регресионна линия

Последна актуализация: 09/15/2023
Автор: R SourceTrail

R е мощен език и среда за статистически изчисления и графики. Една от силните му характеристики е способността да създава висококачествени графики само с няколко реда код. В тази статия ще обсъдим как да начертаем регресионна линия с помощта на „ggplot“, един от най-популярните пакети в R екосистемата за визуализация на данни.

Създаването на регресионна линия или линия, която най-добре отговаря на данните, е обичайна задача при анализиране на данни. Тази линия, често заедно със свързаното с нея уравнение, предоставя компактно изображение на вашите тенденции в данните и може да бъде решаващ компонент за правене на прогнози или извеждане на връзки между променливи.

Процесът на създаване на тази регресионна линия може да бъде разделен на няколко прости стъпки с помощта на функцията `ggplot` и `geom_smooth()`. Нека да видим как работи.

Първо, важно е да инсталирате и заредите необходимите пакети. Можете да направите това, като използвате следния код:

install.packages("ggplot2")
library(ggplot2)

С инсталиран и зареден пакет ggplot2 можем да продължим напред с нашето основно създаване на сюжет.

Анализиране и изобразяване на данните

Преди да начертаете регресионна линия, трябва да имате ясна представа за вашите данни. Първата стъпка към създаването на регресионна линия е да начертаете вашите точки от данни върху графика.

Да кажем, че имаме рамка с данни с име `my_data` с две променливи `x` и `y`. Ето как можете да създадете основна диаграма на разсейване.

ggplot(my_data, aes(x=x, y=y)) +
  geom_point()

Добавяне на регресионна линия

Сега, след като имаме диаграмата на разсейване, следващата стъпка е да добавим регресионна линия.

Това може да стане с помощта на функцията `geom_smooth()`, която създава гладка крива, която пасва на данните. По подразбиране тази функция добавя крива на изглаждане на LOESS и доверителен интервал около нея, но ние искаме проста линия на линейна регресия. За да получим това, можем да добавим аргумент „method“ към „geom_smooth()“, като го зададем на „lm“, което означава линеен модел.

Ето модифицирания код:

ggplot(my_data, aes(x=x, y=y)) +
  geom_point() +
  geom_smooth(method = lm)

Линията в графиката сега представлява най-доброто линейно приближение на нашите данни, т.е. линейната регресия. Сивата зона около линията е стандартната грешка на оценката.

Персонализиране на външния вид

`ggplot` също ви позволява да променяте външния вид на графиката. Например, можете да промените цвета на точките и линията, да добавите етикети и да добавите заглавие.

Ето пример, където се прилагат тези персонализации:

ggplot(my_data, aes(x=x, y=y)) +
  geom_point(color = 'red') +
  geom_smooth(method = lm, se = FALSE, color = 'blue') +
  labs(title = 'Scatter plot with regression line', x = 'Variable X', y = 'Variable Y')

За да обобщим, функционалността `ggplot` в рамките на R предоставя отличен инструмент за визуализиране на връзката между променливите чрез генериране на регресионни линии. Това го прави удобен ресурс за широк спектър от нужди за анализ на данни.

Подобни публикации:

Оставете коментар