Решено: прочетете xlsx

Последна актуализация: 09/15/2023
Автор: R SourceTrail

В света на анализа на данни работата с различни видове файлове с данни е ежедневна работа. Един такъв тип файл е XLSX, което е файловото разширение за електронна таблица на Excel. Въпреки повсеместното разпространение на тези файлове в професионалния свят, програмното им боравене понякога може да повлияе на работния ви процес, особено ако работите в R, широко използван език за програмиране в статистиката и науката за данни. Задачата за четене в xlsx файл може да изглежда предизвикателна, но всъщност е доста ефективна и ясна с правилните инструменти и разбиране.

Проблемът: Четене на xlsx файлове в R

Процесът може да бъде доста технически, тъй като файловете на Excel са двоични, като по този начин представляват данни, потенциално обхващащи множество работни листове с различно форматиране и формули. Четенето на тези файлове в R и извличането на данни за допълнителен анализ е необходимо за ускоряване на работния процес, но изисква правилния подход.

Решението: Използване на библиотеки в R

R е невероятно гъвкав език с множество библиотеки за опростяване на сложни задачи. При справяне със xlsx файлове, влизат в действие две основни библиотеки: readxl намлява openxlsx. Всяка от тези библиотеки предлага функции, които улесняват четенето в xlsx файлове и превръщането им в кадри с данни за лесно манипулиране в R.

# installing the packages
install.packages("readxl")
install.packages("openxlsx")

# loading the packages
library(readxl)
library(openxlsx)

Стъпка по стъпка Обяснение на кода

Ако имате xlsx файл, озаглавен „data.xlsx“, съхранен във вашата работна директория, можете да прочетете файла по следния начин:

# Using readxl

# Read the first sheet of the file directly
df_readxl = read_excel("data.xlsx")

# Using openxlsx
df_openxlsx = read.xlsx("data.xlsx", sheet = 1)

Функцията read_excel от пакет readxl или read.xlsx от пакета openxlsx просто чете първия лист от файла на Excel и връща рамка с данни. Обърнете внимание, че параметърът на листа в read.xlsx функцията указва индекса на работния лист за четене.

Работа с множество работни листове

Често xlsx файловете съдържат множество работни листове. Споменатите R пакети предлагат начини за справяне с това:

# Using readxl

# Getting the names of all worksheets in the file
sheet_names = excel_sheets("data.xlsx")

# Read the second sheet of the file
df_readxl_2 = read_excel("data.xlsx", sheet = sheet_names[2])

# Using openxlsx
df_openxlsx_2 = read.xlsx("data.xlsx", sheet = 2)

Функцията „excel_sheets“ в пакета readxl предоставя имената на всички работни листове във файла, които след това могат да се използват за четене на данни от определен лист.

Естествено начинът, по който работите с файлове, зависи от спецификата на вашите данни и вашия проект. Но независимо от всичко, тези полезни R функции със сигурност ще ви помогнат при ефикасното и ефективно четене на xlsx файлове във вашата работа.

Подобни публикации:

Оставете коментар