Python визуализация данных excel

Содержание

Data Visualization In Excel Using Python
Using ExcelWriter for Creating Visualizations in Excel by Python Code
Installing required libraries
Importing required libraries
Loading Dataset
Creating Visualization In Excel
Python, pandas и решение трёх задач из мира Excel
Загрузка данных
Реализация возможностей Excel-функции IF в Python
Реализация возможностей Excel-функции VLOOKUP в Python
Сводные таблицы
Итоги
Plot data from Excel Sheet using Python
Steps to Plot data from Excel Sheet using Python
Step 1: Importing Modules
Step 2: Loading Dataset
Step 3: Separating x and y values
Step 4: Plotting a Scatter Plot

Data Visualization In Excel Using Python

Using ExcelWriter for Creating Visualizations in Excel by Python Code

Excel is widely used for data analysis and has a lot of functionalities for analyzing, manipulating, visualizing, etc. Using excel should be one of the main skills required for a Data Analyst, Product Analyst, and Business Analyst. It helps in understanding the data and how we can use it for generating useful insights.

Python is also widely used for Data Analysis purposes and also overcomes the drawbacks of Excel. With a little knowledge of Python, we can enhance our Data Analysis skills and also generate more useful insights.

Combining both Excel and Python can be fruitful and makes Data Analysis more interesting. ExcelWriter is used for performing different Excel operations using Python. It provides a wide variety of functionalities like creating an Excel, writing data into an Excel sheet, creating visualizations in Excel, etc.

In this article, we will explore ExcelWriter and create some visualizations using it.

Installing required libraries

Excelwriter is defined in Pandas so we don’t need to install it separately.

Importing required libraries

In this step, we will import all the libraries that are required for reading Excel and creating visualizations in Excel using Python.

import pandas as pd
import numpy as np

Loading Dataset

For this article, we will the famous Diabetes dataset that can be downloaded from online sources. Also, we will create an excel file using excel writer where we will create visualizations.

df = pd.DataFrame(pd.read_csv("/content/test.csv"))
writer = pd.ExcelWriter('diabetes.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Sheet1', startrow=2)

Creating Visualization In Excel

In this step, we will create different types of visualization, write them to the excel file we created and then save the visualization. Before creating the visualizations we will also create…

Источник

Python, pandas и решение трёх задач из мира Excel

Excel — это чрезвычайно распространённый инструмент для анализа данных. С ним легко научиться работать, есть он практически на каждом компьютере, а тот, кто его освоил, может с его помощью решать довольно сложные задачи. Python часто считают инструментом, возможности которого практически безграничны, но который освоить сложнее, чем Excel. Автор материала, перевод которого мы сегодня публикуем, хочет рассказать о решении с помощью Python трёх задач, которые обычно решают в Excel. Эта статья представляет собой нечто вроде введения в Python для тех, кто хорошо знает Excel.

Загрузка данных

Начнём с импорта Python-библиотеки pandas и с загрузки в датафреймы данных, которые хранятся на листах sales и states книги Excel. Такие же имена мы дадим и соответствующим датафреймам.

import pandas as pd sales = pd.read_excel('https://github.com/datagy/mediumdata/raw/master/pythonexcel.xlsx', sheet_name = 'sales') states = pd.read_excel('https://github.com/datagy/mediumdata/raw/master/pythonexcel.xlsx', sheet_name = 'states')

Теперь воспользуемся методом .head() датафрейма sales для того чтобы вывести элементы, находящиеся в начале датафрейма:

Сравним то, что будет выведено, с тем, что можно видеть в Excel.

Сравнение внешнего вида данных, выводимых в Excel, с внешним видом данных, выводимых из датафрейма pandas

Тут можно видеть, что результаты визуализации данных из датафрейма очень похожи на то, что можно видеть в Excel. Но тут имеются и некоторые очень важные различия:

Нумерация строк в Excel начинается с 1, а в pandas номер (индекс) первой строки равняется 0.
В Excel столбцы имеют буквенные обозначения, начинающиеся с буквы A , а в pandas названия столбцов соответствуют именам соответствующих переменных.

Реализация возможностей Excel-функции IF в Python

В Excel существует очень удобная функция IF , которая позволяет, например, записать что-либо в ячейку, основываясь на проверке того, что находится в другой ячейке. Предположим, нужно создать в Excel новый столбец, ячейки которого будут сообщать нам о том, превышают ли 500 значения, записанные в соответствующие ячейки столбца B . В Excel такому столбцу (в нашем случае это столбец E ) можно назначить заголовок MoreThan500 , записав соответствующий текст в ячейку E1 . После этого, в ячейке E2 , можно ввести следующее:

Использование функции IF в Excel

Для того чтобы сделать то же самое с использованием pandas, можно воспользоваться списковым включением (list comprehension):

sales['MoreThan500'] = ['Yes' if x > 500 else 'No' for x in sales['Sales']]

Списковые включения в Python: если текущее значение больше 500 — в список попадает Yes, в противном случае — No

Списковые включения — это отличное средство для решения подобных задач, позволяющее упростить код за счёт уменьшения потребности в сложных конструкциях вида if/else. Ту же задачу можно решить и с помощью if/else, но предложенный подход экономит время и делает код немного чище. Подробности о списковых включениях можно найти здесь.

Реализация возможностей Excel-функции VLOOKUP в Python

В нашем наборе данных, на одном из листов Excel, есть названия городов, а на другом — названия штатов и провинций. Как узнать о том, где именно находится каждый город? Для этого подходит Excel-функция VLOOKUP , с помощью которой можно связать данные двух таблиц. Эта функция работает по принципу левого соединения, когда сохраняется каждая запись из набора данных, находящегося в левой части выражения. Применяя функцию VLOOKUP , мы предлагаем системе выполнить поиск определённого значения в заданном столбце указанного листа, а затем — вернуть значение, которое находится на заданное число столбцов правее найденного значения. Вот как это выглядит:

Зададим на листе sales заголовок столбца F как State и воспользуемся функцией VLOOKUP для того чтобы заполнить ячейки этого столбца названиями штатов и провинций, в которых расположены города.

Использование функции VLOOKUP в Excel

В Python сделать то же самое можно, воспользовавшись методом merge из pandas. Он принимает два датафрейма и объединяет их. Для решения этой задачи нам понадобится следующий код:

sales = pd.merge(sales, states, how='left', on='City')

Первый аргумент метода merge — это исходный датафрейм.
Второй аргумент — это датафрейм, в котором мы ищем значения.
Аргумент how указывает на то, как именно мы хотим соединить данные.
Аргумент on указывает на переменную, по которой нужно выполнить соединение (тут ещё можно использовать аргументы left_on и right_on , нужные в том случае, если интересующие нас данные в разных датафреймах названы по-разному).

Сводные таблицы

Сводные таблицы (Pivot Tables) — это одна из самых мощных возможностей Excel. Такие таблицы позволяют очень быстро извлекать ценные сведения из больших наборов данных. Создадим в Excel сводную таблицу, выводящую сведения о суммарных продажах по каждому городу.

Создание сводной таблицы в Excel

Как видите, для создания подобной таблицы достаточно перетащить поле City в раздел Rows , а поле Sales — в раздел Values . После этого Excel автоматически выведет суммарные продажи для каждого города.

Для того чтобы создать такую же сводную таблицу в pandas, нужно будет написать следующий код:

sales.pivot_table(index = 'City', values = 'Sales', aggfunc = 'sum')

Здесь мы используем метод sales.pivot_table , сообщая pandas о том, что мы хотим создать сводную таблицу, основанную на датафрейме sales .
Аргумент index указывает на столбец, по которому мы хотим агрегировать данные.
Аргумент values указывает на то, какие значения мы собираемся агрегировать.
Аргумент aggfunc задаёт функцию, которую мы хотим использовать при обработке значений (тут ещё можно воспользоваться функциями mean , max , min и так далее).

Итоги

Из этого материала вы узнали о том, как импортировать Excel-данные в pandas, о том, как реализовать средствами Python и pandas возможности Excel-функций IF и VLOOKUP , а также о том, как воспроизвести средствами pandas функционал сводных таблиц Excel. Возможно, сейчас вы задаётесь вопросом о том, зачем вам пользоваться pandas, если то же самое можно сделать и в Excel. На этот вопрос нет однозначного ответа. Python позволяет создавать код, который поддаётся тонкой настройке и глубокому исследованию. Такой код можно использовать многократно. Средствами Python можно описывать очень сложные схемы анализа данных. А возможностей Excel, вероятно, достаточно лишь для менее масштабных исследований данных. Если вы до этого момента пользовались только Excel — рекомендую испытать Python и pandas, и узнать о том, что у вас из этого получится.

А какие инструменты вы используете для анализа данных?

Напоминаем, что у нас продолжается конкурс прогнозов, в котором можно выиграть новенький iPhone. Еще есть время ворваться в него, и сделать максимально точный прогноз по злободневным величинам.

Источник

Plot data from Excel Sheet using Python

In this tutorial, we will be learning a basic requirement in the world of Machine Learning and data science. Plotting the data can help to visualize the data and helps in a better understanding of the data points.

Steps to Plot data from Excel Sheet using Python

Today we will be making use of an excel sheet to plot data with the help of pandas and matplotlib modules in Python programming. So let’s begin!

Step 1: Importing Modules

We will be importing matplotlib and pandas modules in which the matplotlib module is used for plotting and pandas is used to handle the excel file datapoints.

Before importing the module, we need to make sure that the modules are installed in our system which is done using the following command on CMD ( Command Prompt ).

pip install pandas pip install matplotlib

Now we will be importing both the modules in our program using the code lines below.

import pandas as pd import matplotlib.pyplot as plt

Step 2: Loading Dataset

To load the data we will be using read_excel function from the pandas module which will take the path of the excel file as a parameter.

For this tutorial, we created a sample excel sheet containing some sample data points as shown in the image below.

Now, the loading of data is done with the help of the code statement mentioned below.

var = pd.read_excel("sample_excel.xlsx") print(var)

Step 3: Separating x and y values

Now in the dataset, we have two columns one for x data points and the other for y data points. This is done after separating the first and second columns into separate variables.

x = list(var['X values']) y = list(var['Y values'])

After the separation of the x and y coordinates, we will be making a scatter plot for the data in the next step.

Step 4: Plotting a Scatter Plot

The scatter plot is displayed with the help of the code block mentioned below.

plt.figure(figsize=(10,10)) plt.style.use('seaborn') plt.scatter(x,y,marker="*",s=100,edgecolors="black",c="yellow") plt.title("Excel sheet to Scatter Plot") plt.show()

You can try out a different dataset or search for a random dataset in excel format online. I hope you understood the concept thoroughly and will be able to implement the same yourself!

Thank you for reading! Happy Learning!

Источник