Pairplot python что это

Парный график Seaborn в Python для визуализации данных

В этом руководстве мы изучим парный график Seaborn в Python для визуализации данных с помощью функции pairplot() на языке программирования Python. Эта функция может значительно помочь в анализе исследовательских данных для проектов машинного обучения. Мы также познакомимся с синтаксисом функции pairplot() библиотеки seaborn и выполним некоторые из ее примеров.

Но прежде чем мы начнем, давайте вкратце разберемся с библиотекой Seaborn.

Что такое библиотека Seaborn в Python?

Библиотека Seaborn была разработана на основе библиотеки matplotlib и тесно интегрирована со структурами данных Pandas в Python. Визуализация – центральная концепция библиотеки Seaborn, помогающая пользователям исследовать и понимать данные.

Поскольку библиотека Seaborn объединяет и интегрирует различные библиотеки, изучающим Python необходимо знать библиотеки NumPy, Matplotlib и Pandas.

Библиотека Seaborn предоставляет различные функции. Некоторые из них перечислены ниже:

  1. Seaborn предоставляет интерфейс прикладного программирования (API), ориентированный на набор данных, для определения взаимосвязи между переменными.
  2. Seaborn также предоставляет функции автоматической оценки и построения графиков линейной регрессии.
  3. Обеспечивает поддержку высокоуровневых абстракций для нескольких сеток графиков.
  4. Предлагает визуализировать распределение как одномерное и двумерное.

Теперь давайте разберемся, как загрузить и установить библиотеку Seaborn.

Как установить библиотеку Seaborn?

В следующем разделе мы обсудим шаги, связанные с процессом установки библиотеки Seaborn.

Мы можем установить последнюю версию библиотеки Seaborn с помощью установщика pip. Все, что нам нужно сделать, это ввести следующую команду в командной оболочке или в терминале.

Anaconda – это мультиплатформенный бесплатный дистрибутив Python для стека SciPy, доступный для Windows, Linux и Mac.

Мы можем установить последнюю версию библиотеки Seaborn с помощью установщика conda, используя команду, показанную ниже:

Помимо этих двух, мы можем установить разрабатываемую версию библиотеки Seaborn.

Чтобы установить версию для разработки, мы можем перейти по ссылке ниже:

При загрузке и установке библиотеки Seaborn необходимо позаботиться о нескольких следующих зависимостях:

  1. Python версии 2.7 или 3.4+.
  2. Библиотека NumPy.
  3. Библиотека Matplotlib.
  4. SciPy.
  5. Pandas.
  • Инициализация библиотеки Seaborn

Когда мы закончим загрузку и установку библиотеки Seaborn, давайте создадим пустой файл Python и воспользуемся следующим синтаксисом для инициализации библиотеки.

Сохраните программу и запустите файл. Если программа не возвращает ошибку импорта, библиотека установлена успешно. В противном случае рассмотрите возможность переустановки библиотеки, как описано выше.

Библиотека Seaborn предоставляет пользователю возможность строить широкий спектр графиков, таких как:

  1. Круговые диаграммы.
  2. Столбцовые диаграммы.
  3. Графики распределения.
  4. Диаграммы разброса.
  5. Тепловые карты.
  6. Парные графики.

В этом уроке мы будем обсуждать только парные графики Seaborn и функцию pairplot(). Итак, приступим.

Функция Seaborn Pairplot

Функция Seaborn Pairplot позволяет пользователям создавать сетку осей, через которую каждая числовая переменная, хранящаяся в данных, распределяется по осям X и Y в структуре столбцов и строк. Мы можем создать точечные графики, чтобы отображать попарные отношения в дополнение к графику распределения, отображающему распределение данных в столбце по диагонали.

Функцию pairplot() также можно использовать для демонстрации подмножества переменных, или мы можем нанести различные типы переменных на строки и столбцы.

Давайте посмотрим на синтаксис функции Seaborn Pairplot, показанный ниже:

seaborn.pairplot( data, hue = None, hue_order = None, palette = None, vars = None, x_vars = None, y_vars = None, kind = 'scatter', diag_kind = 'auto', markers = None, height = 2.5, aspect = 1, corner = False, dropna = False, plot_kws = None, diag_kws = None, grid_kws = None, size = None )

Параметры функции Pairplot:

  1. data: параметр data принимает данные в зависимости от визуализации, которую нужно построить. Значения могут быть в виде DataFrame, Array или List of Arrays.
  2. hue_order, order: параметр hue_order или просто порядок – это порядок категориальных переменных, используемых в графике. Значения этого параметра могут быть списками строк.
  3. scale: параметр масштаба используется для масштабирования графика. Этот параметр принимает больше значений для использования, таких как площадь, количество или ширина.
  4. scale_hue: параметр scale_hue принимает логическое значение, чтобы определить, оценивается ли шкала на каждом уровне основной группирующей переменной как ИСТИНА или для всех скрипок на графике как ЛОЖЬ.
  5. gridsize: параметр gridsize принимает целочисленное значение для вычисления плотности ядра для графика.
  6. inner: внутренний параметр позволяет пользователям определять внутренние точки скрипичного сюжета. Этот параметр принимает такие значения, как box, point, quartile, stick или None.
  7. orient: параметр orient позволяет пользователю определять ориентацию графика. Ориентация может быть вертикальной, обозначается буквой «v», или горизонтальной, обозначается буквой «h» соответственно.
  8. linewidth: параметр linewidth принимает целое число с плавающей запятой в качестве значения для определения ширины серых линий, используемых на графике.
  9. цвет: параметр цвета позволяет пользователю указать диапазон цвета для всех элементов данных графика. Значение этого параметра может быть цвет matplotlib.
  10. palette: параметр палитры используется для определения цветов, используемых для каждого уровня графика с различными оттенками.
  11. ax: параметр ax используется для определения осей, на которых будет построен график. Значением этого параметра может быть matplotlib Axes.

Давайте рассмотрим несколько примеров, чтобы понять работу функции pairplot():

# importing the required libraries import seaborn as sbn import matplotlib.pyplot as plt # loading the dataset using the seaborn library mydata = sbn.load_dataset('penguins') # pairplot with the hue = gender parameter sbn.pairplot(mydata, hue = 'gender') # displaying the plot plt.show()

Пример 1

В приведенном выше примере мы импортировали необходимые библиотеки и загрузили набор данных пингвинов для работы с помощью функции Seaborn load_dataset(). Затем мы использовали функцию pairplot() для визуализации графика с параметром оттенка, установленным на значение «пол».

Наконец, мы использовали функцию Matplotlib show() для отображения графика пользователям. В результате парный график был успешно сгенерирован.

# importing the required libraries import seaborn as sbn import matplotlib.pyplot as plt # loading the dataset using the seaborn library mydata = sbn.load_dataset('tips') # pairplot with the kind = kde parameter sbn.pairplot(mydata, kind = 'kde') # displaying the plot plt.show()

Пример 2

В приведенном выше примере мы импортировали необходимые библиотеки и загрузили набор данных для работы с подсказками, используя функцию Seaborn load_dataset(). Затем мы использовали функцию pairplot() для визуализации графика с параметром kind, установленным на значение «kde».

Наконец, мы использовали функцию Matplotlib show() для отображения графика пользователям. В результате парный график был успешно сгенерирован.

Источник

seaborn.pairplot#

seaborn. pairplot ( data , * , hue = None , hue_order = None , palette = None , vars = None , x_vars = None , y_vars = None , kind = ‘scatter’ , diag_kind = ‘auto’ , markers = None , height = 2.5 , aspect = 1 , corner = False , dropna = False , plot_kws = None , diag_kws = None , grid_kws = None , size = None ) #

Plot pairwise relationships in a dataset.

By default, this function will create a grid of Axes such that each numeric variable in data will by shared across the y-axes across a single row and the x-axes across a single column. The diagonal plots are treated differently: a univariate distribution plot is drawn to show the marginal distribution of the data in each column.

It is also possible to show a subset of variables or plot different variables on the rows and columns.

This is a high-level interface for PairGrid that is intended to make it easy to draw a few common styles. You should use PairGrid directly if you need more flexibility.

Parameters : data pandas.DataFrame

Tidy (long-form) dataframe where each column is a variable and each row is an observation.

hue name of variable in data

Variable in data to map plot aspects to different colors.

hue_order list of strings

Order for the levels of the hue variable in the palette

palette dict or seaborn color palette

Set of colors for mapping the hue variable. If a dict, keys should be values in the hue variable.

vars list of variable names

Variables within data to use, otherwise use every column with a numeric datatype.

_vars lists of variable names

Variables within data to use separately for the rows and columns of the figure; i.e. to make a non-square plot.

Kind of plot for the diagonal subplots. If ‘auto’, choose based on whether or not hue is used.

markers single matplotlib marker code or list

Either the marker to use for all scatterplot points or a list of markers with a length the same as the number of levels in the hue variable so that differently colored points will also have different scatterplot markers.

height scalar

Height (in inches) of each facet.

aspect scalar

Aspect * height gives the width (in inches) of each facet.

corner bool

If True, don’t add axes to the upper (off-diagonal) triangle of the grid, making this a “corner” plot.

dropna boolean

Drop missing values from the data before plotting.

_kws dicts

Dictionaries of keyword arguments. plot_kws are passed to the bivariate plotting function, diag_kws are passed to the univariate plotting function, and grid_kws are passed to the PairGrid constructor.

Returns : grid PairGrid

Returns the underlying PairGrid instance for further tweaking.

Subplot grid for more flexible plotting of pairwise relationships.

Grid for plotting joint and marginal distributions of two variables.

The simplest invocation uses scatterplot() for each pairing of the variables and histplot() for the marginal plots along the diagonal:

penguins = sns.load_dataset("penguins") sns.pairplot(penguins) 

../_images/pairplot_1_0.png

Assigning a hue variable adds a semantic mapping and changes the default marginal plot to a layered kernel density estimate (KDE):

sns.pairplot(penguins, hue="species") 

../_images/pairplot_3_0.png

It’s possible to force marginal histograms:

sns.pairplot(penguins, hue="species", diag_kind="hist") 

../_images/pairplot_5_0.png

The kind parameter determines both the diagonal and off-diagonal plotting style. Several options are available, including using kdeplot() to draw KDEs:

sns.pairplot(penguins, kind="kde") 

../_images/pairplot_7_0.png

Or histplot() to draw both bivariate and univariate histograms:

sns.pairplot(penguins, kind="hist") 

../_images/pairplot_9_0.png

The markers parameter applies a style mapping on the off-diagonal axes. Currently, it will be redundant with the hue variable:

sns.pairplot(penguins, hue="species", markers=["o", "s", "D"]) 

../_images/pairplot_11_0.png

As with other figure-level functions, the size of the figure is controlled by setting the height of each individual subplot:

sns.pairplot(penguins, height=1.5) 

../_images/pairplot_13_0.png

Use vars or x_vars and y_vars to select the variables to plot:

sns.pairplot( penguins, x_vars=["bill_length_mm", "bill_depth_mm", "flipper_length_mm"], y_vars=["bill_length_mm", "bill_depth_mm"], ) 

../_images/pairplot_15_0.png

Set corner=True to plot only the lower triangle:

sns.pairplot(penguins, corner=True) 

../_images/pairplot_17_0.png

The plot_kws and diag_kws parameters accept dicts of keyword arguments to customize the off-diagonal and diagonal plots, respectively:

sns.pairplot( penguins, plot_kws=dict(marker="+", linewidth=1), diag_kws=dict(fill=False), ) 

../_images/pairplot_19_0.png

The return object is the underlying PairGrid , which can be used to further customize the plot:

g = sns.pairplot(penguins, diag_kind="kde") g.map_lower(sns.kdeplot, levels=4, color=".2") 

Источник

Читайте также:  Python default parameter values for functions
Оцените статью