DAY47. Python Numpy (1)배열, 색인, 범용함수

LEE_BOMB 2021. 11. 26. 17:33

2021. 11. 26. 17:33

Nunmpy 패키지

수치 과학용 데이터 처리 목적으로 사용
선형대수(벡터, 행렬) 연산 관련 함수 제공
N차원 배열, 선형대수 연산, 고속 연산
수학/통계 함수 제공
indexing/slicing
broadcast 연산 : 서로 다른 차원 간의 연산

import numpy as np

1. list 배열 vs numpy 배열
1) list 배열

lst = [1, 2, 3, 3.5] #정수형과 실수형
lst #[1, 2, 3, 3.5] -> 다양한 자료형
lst * 3 #[1, 2, 3, 3.5, 1, 2, 3, 3.5, 1, 2, 3, 3.5]
#lst * 0.5 = TypeError

list + for

calc = [v*0.5 for v in lst]
calc #[0.5, 1.0, 1.5, 1.75]

sum(lst) #외부함수 이용

2) numpy 배열

arr = np.array(lst) #list -> numpy형 변환
arr #array([1. , 2. , 3. , 3.5]) -> 동일한 자료형
arr * 0.5 #산술연산 : array([0.5 , 1.  , 1.5 , 1.75])
arr.sum() #자체 객체 지원 함수(mehod)

type(arr) #numpy.ndarray
dir(arr)
arr.size #4
arr.shape #(4,)
arr.ndim #1
 
arr2 = np.array([10, 20, 30, '40'])
arr2 #array(['10', '20', '30', '40'], dtype='<U11')

2. array() : 다차원 배열 생성 함수
1) 단일 list -> 1차원 배열

lst1d = [3, 5.3, 4, 7]

list -> array

arr1d = np.array(lst1d)
arr1d.shape #(4,)
arr1d.ndim #1 -> 1차원

2) 중첩 list -> 2차원 배열

lst2d = [[1, 2, 3, 4], [5, 6, 7, 8]]
print(lst2d) #[[1, 2, 3, 4], [5, 6, 7, 8]]

list -> array

arr2d = np.array(lst2d)
print(arr2d)

[[1 2 3 4] -> 1행
[5 6 7 8]] -> 2행

arr2d.shape #(2, 4)
arr2d.ndim #2
arr2d.size #8

3. broadcast 연산
작은 차원이 큰 차원으로 늘어난 후 1:1 연산

1) scala(0) vs vector(1)

arr1d * 0.5 #array([1.5 , 2.65, 2.  , 3.5 ])

2) scala(0) vs matrix(2)

arr2d * 0.5

array([[0.5, 1. , 1.5, 2. ],
[2.5, 3. , 3.5, 4. ]])

3) vector(1) vs matrix(2)

arr1d.shape #(4,)
arr2d.shape #(2, 4)
arr1d * arr2d

array([[ 3. , 10.6, 12. , 28. ],
[15. , 31.8, 28. , 56. ]])

print(arr1d) #[3.  5.3 4.  7. ]

mu = arr1d.mean() #4.825
diff = (arr1d - mu)**2 #broadcast 연산 array([3.330625, 0.225625, 0.680625, 4.730625])
type(diff) #numpy.ndarray

var = sum(diff) / arr1d.size #분산 2.241875
var = sum(diff) / (arr1d.size -1) #list배열보다 numpy가 계산식에서 간편하다

4. zeros() 함수 vs ones() 함수
zeros(0행렬) : 모든 값을 0으로 초기화한다, 모든 행렬이 0을 갖게 한다.
ones(1행렬) : 모든 값을 1로 초기화한다, 모든 행렬이 1을 갖게 한다.

zarr = np.zeros((3,10)) #3행 10열의 0행렬
zarr

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]) -> 바깥괄호 2개 : 2차원

oarr = np.ones((3,10))
oarr

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

5. arange(start, stop, step)
1) range vs arange

list(range(1,11)) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
#range(-1.0, 10.5) : TypeError : 'float'

np.arange(1, 11) #array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])
np.arange(-1.2, 5.5) #array([-1.2, -0.2,  0.8,  1.8,  2.8,  3.8,  4.8])

x의 수열에 대한 2차 방정식

x = np.arange(-1.0, 2, 0.1)
x.size #30 (원소의 개수)

f(x) 함수

def f(x) :
    y = x**2 + 2*x +3
    return y

함수 호출

f(x) #y반환

2차 방정식 그래프

import matplotlib.pyplot as plt

plt.plot(x, f(x)) #선그래프(x축, y축)
plt.show

2) 색인

zarr #0행렬

cnt = 0
for i in np.arange(3) : #행 index
    for j in np.arange(10) : #열 index
        cnt += 1    
        zarr[i,j] = cnt
        
zarr

indexing

1차원 : list 색인 동일
2,3차원 색인
조건식 색인

import numpy as np

1. 색인(indexing) : 자료 참조
1차원 : obj[index]] : list 동일
2차원 : obj[행 ,열]
3차원 : obj[면, 행, 열]

1) list 색인

lst = list(range(6)) #0~5
lst #[0, 1, 2, 3, 4, 5]

lst[2] #2
lst[:3] #[0, 1, 2]
lst[3:] #[3, 4, 5]
lst[-1] #5

2) numpy 색인

arr = np.arange(10)
arr #array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[2] #2
arr[:3] #array([0, 1, 2])
arr[3:] #array([3, 4, 5, 6, 7, 8, 9])
arr[-1] #9

2. slicing : 특정 부분을 잘라서 new object

arr_obj = arr[1:4]
arr_obj #array([1, 2, 3])

전체 원소 수정

arr_obj[:] = 100
arr_obj #array([100, 100, 100])

원본 내용 확인

arr #array([  0, 100, 100, 100,   4,   5,   6,   7,   8,   9])

* 해당 구간은 원본에서도 수정됨.

WHY? slicing할 때 원본의 주소를 반환하기 때문

내용 반환

arr_obj2 = arr[1:4].copy()
arr_obj2
arr_obj2[:] = 500
arr_obj2 #array([500, 500, 500])

원본 내용

arr #array([  0, 100, 100, 100,   4,   5,   6,   7,   8,   9])

* list 색인 문법을 그대로 적용하면 됨

3. 고차원 색인
1) 2차원 색인

arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d

array([[1, 2, 3], -> 1행
[4, 5, 6], -> 2행
[7, 8, 9]])-> 3행

arr2d.shape #(3, 3)

행 index 기본

arr2d[0] #arr2d[0, :]
arr2d[:2] #연속 2행 선택
arr2d[[0,2]] #비연속 2행 선택 
arr2d[:, [0,2]] #행 전체 선택, 비연속 2열 선택
arr2d[::2] #홀수행 선택 [start:stop:step]
arr2d[:2,1:] #box선택

2) 3차원 색인

arr3d = np.array([ [[1,2,3], [4,5,6]], [[7,8,9], [10,11,12]] ]) #[]3개 중첩 -> 3차원 
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

면 index 기본

arr3d[0] #1면의 색인
arr3d[1] #6면의 색인

arr3d[0,1] #1면 2행 -> array([4, 5, 6])
arr3d[0, 1, 2] #1면 2행 3열 -> 6

* 4차원 : image = [size, h, w, c]

4. 조건식 색인

dataset = np.random.randn(3,4)
dataset
dataset.shape #(3, 4)

0.7 이상 원소 추출

dataset[dataset >= 0.7] #array([1.21270247, 0.82024283, 0.91840696, 1.71777067])

0.1 ~ 0.7 원소 추출 : 범위

dataset[dataset >= 0.1 and dataset <= 0.7] #ValueError

numpy 논리식 함수

np.logcal_and() #논리곱
np.logcal_or() #논리 합
np.logcal_not() #부정
np.logcal_xor() #배타적 논리합

dataset[np.logical_and(dataset >= 0.1, dataset <= 0.7)] #array([0.12758051, 0.5333522 , 0.11015089])

pandas 객체 적용

import pandas as pd

ser = pd.Series([3, 2, 5, 4, 1, 8])
ser[np.logical_and(ser >= 3, ser <=5)]

0    3
2    5
3    4

universal

범용함수(universal function)
numpy 일반적인 수학/통계 관련 함수

import numpy as np

1. numpy 제공 함수 : np.함수(object)
object : list or 기타
list 객체 자체는 수학/통계 함수 없음

data = [1, 3, -5, 7] # list object

np.abs(data) #  절대값 : array([1, 3, 5, 7])
np.sqrt(data) # 제곱근 : array([1.   , 1.73205081, nan, 2.64575131])
np.sqrt(np.abs(data)) # [1.        , 1.73205081, 2.23606798, 2.64575131]
np.square(data) # 제곱 : [ 1,  9, 25, 49]
np.sign(data) # 부호 : [ 1,  1, -1,  1]
np.var(data) # 분산 : 18.75
np.std(data) # 표준편차 : 4.330127018922

로그 : 완만한 변화 - data 정규화 : 일정한 범위로 조정

data2 = np.array([1, 2.5, 3.35, 4.6, 55.3])
data2
np.log(data2) # [0.   , 0.91629073, 1.20896035, 1.5260563 , 4.01277291]

지수 : 급격한 변환 - sigmoid 함수

e = np.exp(1) # 2.71828182845904
np.exp(data2)# [2.71828183e+00, 1.21824940e+01, 2.85027336e+01, 9.94843156e+01, 1.03868737e+24]

반올림 함수

np.ceil(data2) # [ 1.,  3.,  4.,  5., 56.] - 큰 정수 올림 
np.rint(data2) # [ 1.,  2.,  3.,  5., 55.] - 가장 가까운 정수 올림 
np.round(data2, 1) # [ 1. ,  2.5,  3.4,  4.6, 55.3]

결측치 처리

data3 = np.array([1, 2.5, 3.35, 4.6, np.nan])
data3 # [1.  , 2.5 , 3.35, 4.6 ,  nan]

np.isnan(data3) # [False, False, False, False,  True]

결측치 제외 : 조건식

result = data3[np.logical_not(np.isnan(data3))] # True -> False 
result # [1.  , 2.5 , 3.35, 4.6 ]

data3[~np.isnan(data3)] # 부정 기호 : ~

2. numpy 객체 제공 함수 : object.함수() = method
np.random.randn() - 패키지.모듈.함수()

data4 = np.random.randn(100, 400) # 2차원 표준정규분포 난수 : N(0, 1^2)
data4

array([[ 0.70393722,  0.22611989, -0.26978612, -0.15859705],
       [ 1.05361659, -0.10306144,  0.03118237,  0.22184977],
       [-0.77531471,  1.33257045, -0.6020415 , -0.15902342]])

type(data4) # numpy.ndarray
data4.size # 12 -> 40000
data4.shape # (3, 4) -> (100, 400)

data4.sum() # 1.5014520523479282
data4.mean() # 0.12512100436232734 -> 0.0037392158490974635
data4.std() #  0.604996608366 -> 1.0006175982808039
data4.max() # 1.3325704466284878
data4.min() # -0.7753147073709586

method 목록 확인

dir(data4)

3. axis 속성

data5 = np.random.randn(10, 20)
data5

행축(axis=0) : 같은 열 모음 = 열 단위 통계
열축(axis=1) : 같은 행 모음 = 행 단위 통계

전체 평균

data5.mean() # 0.03548252444038019

행축 평균

data5.mean(axis = 0) # 1d(20)

열축 평균

data5.mean(axis = 1) # 1d(10)

'데이터분석가 과정 > Python' 카테고리의 다른 글

DAY49. Python Statis Scipy (카이제곱검정, T검정, 공분산, 회귀분석) (0)	2021.11.30
DAY48. Python Numpy (2)reshape, 난수, 행렬곱 (0)	2021.11.29
DAY46. Python Group & Apply (0)	2021.11.25
DAY45. Python Matplot (3)Seaborn (0)	2021.11.23
DAY44. Python Matplot (2)PandasPlot (0)	2021.11.22

💣

DAY47. Python Numpy (1)배열, 색인, 범용함수

'데이터분석가 과정 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바