
В света на анализа на данни работата с различни видове файлове с данни е ежедневна работа. Един такъв тип файл е XLSX, което е файловото разширение за електронна таблица на Excel. Въпреки повсеместното разпространение на тези файлове в професионалния свят, програмното им боравене понякога може да повлияе на работния ви процес, особено ако работите в R, широко използван език за програмиране в статистиката и науката за данни. Задачата за четене в xlsx файл може да изглежда предизвикателна, но всъщност е доста ефективна и ясна с правилните инструменти и разбиране.
Проблемът: Четене на xlsx файлове в R
Процесът може да бъде доста технически, тъй като файловете на Excel са двоични, като по този начин представляват данни, потенциално обхващащи множество работни листове с различно форматиране и формули. Четенето на тези файлове в R и извличането на данни за допълнителен анализ е необходимо за ускоряване на работния процес, но изисква правилния подход.
Решението: Използване на библиотеки в R
R е невероятно гъвкав език с множество библиотеки за опростяване на сложни задачи. При справяне със xlsx файлове, влизат в действие две основни библиотеки: readxl намлява openxlsx. Всяка от тези библиотеки предлага функции, които улесняват четенето в xlsx файлове и превръщането им в кадри с данни за лесно манипулиране в R.
# installing the packages install.packages("readxl") install.packages("openxlsx") # loading the packages library(readxl) library(openxlsx)
Стъпка по стъпка Обяснение на кода
Ако имате xlsx файл, озаглавен „data.xlsx“, съхранен във вашата работна директория, можете да прочетете файла по следния начин:
# Using readxl # Read the first sheet of the file directly df_readxl = read_excel("data.xlsx") # Using openxlsx df_openxlsx = read.xlsx("data.xlsx", sheet = 1)
Функцията read_excel от пакет readxl или read.xlsx от пакета openxlsx просто чете първия лист от файла на Excel и връща рамка с данни. Обърнете внимание, че параметърът на листа в read.xlsx функцията указва индекса на работния лист за четене.
Работа с множество работни листове
Често xlsx файловете съдържат множество работни листове. Споменатите R пакети предлагат начини за справяне с това:
# Using readxl # Getting the names of all worksheets in the file sheet_names = excel_sheets("data.xlsx") # Read the second sheet of the file df_readxl_2 = read_excel("data.xlsx", sheet = sheet_names[2]) # Using openxlsx df_openxlsx_2 = read.xlsx("data.xlsx", sheet = 2)
Функцията „excel_sheets“ в пакета readxl предоставя имената на всички работни листове във файла, които след това могат да се използват за четене на данни от определен лист.
Естествено начинът, по който работите с файлове, зависи от спецификата на вашите данни и вашия проект. Но независимо от всичко, тези полезни R функции със сигурност ще ви помогнат при ефикасното и ефективно четене на xlsx файлове във вашата работа.