R, език за програмиране за статистически изчисления и графики, предоставя разнообразие от инструменти, които позволяват ефективен анализ на данни. Като разработчик с опит в R, често използвам тези инструменти, за да извличам ценни прозрения от сложни набори от данни. Една техника, която R улеснява, е идентифицирането на извънредни стойности в данните – важна стъпка за гарантиране на целостта на данните. Това е особено полезно при предварителната обработка на данни, където става изключително важно да се маркират или обработват извънредни стойности, за да се избегне изкривяване на резултатите от последващ анализ.
В тази статия ще проучим как да използваме функцията boxplot на R за идентифициране и маркиране на отклонения в набор от данни. Boxplot, част от базовия графичен пакет на R, създава визуално представяне на обобщението от пет числа на набор от данни – минимум, първи квартил, медиана, трети квартил и максимум. От тях можем бързо да идентифицираме всички стойности, които попадат извън очаквания диапазон - извънредните стойности.
R's Base Graphics Package
Базовият графичен пакет в R предоставя изчерпателен набор от основни функции и помощни програми за чертане. Те позволяват създаването на широка гама от типове диаграми, от обикновени разпръснати диаграми до сложни многопанелни диаграми. Неразделна част от този пакет е функцията boxplot, предназначена да представя визуално разпределението на стойностите на числови данни.
Една мощна способност на функцията boxplot е нейната присъща помощ при откриване на отклонения. Чрез начертаване на очертанията на кутията между първия и третия квартил с линия на медианата и „мустаци“, които се простират до 1.5 пъти интерквартилния диапазон (IQR), можем да видим с един поглед всички точки от данни, които попадат извън това диапазон – нашите потенциални отклонения.
# create a boxplot of a dataset boxplot(dataset, main="Boxplot of Dataset", boxwex=0.1)
Идентифициране и маркиране на извънредни стойности с R
Извънредните стойности обикновено се идентифицират като точки от данни, които попадат извън 1.5 пъти IQR над третия квартил и под първия квартил. Всяка точка от данни извън тези се означава като отклонение.
В R, след като начертаем boxplot, можем да използваме тази конвенция, за да открием нашите извънредни стойности и да ги маркираме.
# идентифициране и маркиране на отклонения
outliers <- boxplot(dataset, plot=FALSE)$out dataset$outlier <- ifelse(is.element(dataset, outliers), 1, 0) [/code] Тук използваме функцията boxplot с аргумента plot=FALSE за улавяне на статистиката на boxplot, без да се чертае. От тези статистики извличаме извънредните стойности с помощта на оператора $out. След това използваме функцията is.element, за да проверим наличието на тези извънредни стойности в нашия набор от данни и да ги маркираме с „1“, ако присъстват, в противен случай с „0“.
- $out оператор: Помага при улавянето на статистиката на boxplot
- функция boxplot(): Създава boxplot на набора от данни
- Функция is.element(): Проверява наличието на отклонения в нашия набор от данни
- Функция ifelse(): Използва се за маркиране на точката от данни като отклонение
В заключение, R предоставя безпроблемен подход за идентифициране и маркиране на извънредни стойности с помощта на функцията boxplot, неразделна част от основния графичен пакет. Използвайки този удобен инструмент, можем да гарантираме целостта на данните, като по този начин значително повишаваме точността на нашия анализ на данни.