金融與量化投資

一、介紹

10年積累的做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)，可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你，你也不認(rèn)識我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程，更有洪江管理區(qū)免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

1、量化投資第三方相關(guān)模塊

NumPy：數(shù)組批量計(jì)算

Pandas：表計(jì)算與數(shù)據(jù)分析

Matplotlib：圖表繪制

2、如何使用Python進(jìn)行量化投資

自己編寫：NumPy+pandas+Matplotlib+……

在線平臺：聚寬、優(yōu)礦、米筐、Quantopian、……

開源框架：RQAlpha、QUANTAXIS、……

金融：就是對現(xiàn)有資源進(jìn)行重新整合之后，實(shí)現(xiàn)價值和利潤的等效流通。

量化投資：利用計(jì)算機(jī)技術(shù)并且采用一定的數(shù)學(xué)模型去實(shí)踐投資理念，實(shí)現(xiàn)投資策略的過程。

量化投資的優(yōu)勢：

避免主觀情緒、人性弱點(diǎn)和認(rèn)知偏差，選擇更加客觀

能同時包括多角度的觀察和多層次的模型

及時跟蹤市場變化，不斷發(fā)現(xiàn)新的統(tǒng)計(jì)模型，尋找交易機(jī)會

在決定投資策略后，能通過回測驗(yàn)證其效果

量化策略：通過一套固定的邏輯來分析、判斷和決策，自動化地進(jìn)行股票交易

二、IPython和jupyter

IPython是交互式的Python命令行

pip install ipython

使用：ipython

金融與量化投資

pip install jupyter

執(zhí)行命令：jupyter-notebook

三、IPython快捷鍵及常用命令

1、IPython快捷鍵

金融與量化投資

2、IPython的魔法命令

金融與量化投資

3、IPython調(diào)試器命令

金融與量化投資

四、NumPy：數(shù)組計(jì)算

NumPy是高性能科學(xué)計(jì)算和數(shù)據(jù)分析的基礎(chǔ)包。它是pandas等其他各種工具的基礎(chǔ)。

NumPy的主要功能：

ndarray，一個多維數(shù)組結(jié)構(gòu)，高效且節(jié)省空間

無需循環(huán)對整組數(shù)據(jù)進(jìn)行快速運(yùn)算的數(shù)學(xué)函數(shù)

*讀寫磁盤數(shù)據(jù)的工具以及用于操作內(nèi)存映射文件的工具

*線性代數(shù)、隨機(jī)數(shù)生成和傅里葉變換功能

*用于集成C、C++等代碼的工具

安裝方法：pip install numpy

引用方式：import numpy as np

例1：已知若干家跨國公司的市值（美元），將其換算為人民幣
import numpy as np
import random
a = [random.uniform(100.0,200.0) for _ in range(1000)]            #隨機(jī)生成有1000個小數(shù)的列表
# list(map(lambda x:x*6.6,a))                                  #每個元素都乘6.6，組成新的列表
arr = np.array(a)                                                  #列表轉(zhuǎn)化為數(shù)組
arr * 6.6                                                         #對數(shù)組每個值乘以6.6得到所需的值

例2：已知購物車中每件商品的價格與商品件數(shù)，求總金額
price = [random.uniform(10,20) for _ in range(100)]
num = [random.randint(1,10) for _ in range(100)]
# sum_p=0
# for p,n in zip(price,num):                                   #拉鏈函數(shù)把對應(yīng)的值相乘
#         sum_p+=p*n
# print(sum_p)
price_arr = np.array(price)                                #價格列表變成數(shù)組
num_arr = np.array(num)                                   #數(shù)量列表變成數(shù)組
np.sum(price_arr*num_arr)

五、NumPy常用屬性和常用方法

常用屬性：

T 數(shù)組的轉(zhuǎn)置（對高維數(shù)組而言）

金融與量化投資

dtype數(shù)組元素的數(shù)據(jù)類型

size數(shù)組元素的個數(shù)

ndim數(shù)組的維數(shù)

shape數(shù)組的維度大?。ㄒ栽M形式）

常用方法：
array.shape                         array的規(guī)格
array.ndim
array.dtype                         array的數(shù)據(jù)規(guī)格
numpy.zeros(dim1,dim2)              創(chuàng)建dim1*dim2的零矩陣
numpy.arange
numpy.eye(n) /numpy.identity(n)     創(chuàng)建n*n單位矩陣
numpy.array([…data…], dtype=float64 )
array.astype(numpy.float64)         更換矩陣的數(shù)據(jù)形式
array.astype(float)                 更換矩陣的數(shù)據(jù)形式
array * array                       矩陣點(diǎn)乘
array[a:b]                          切片
array.copy()                        得到ndarray的副本，而不是視圖
array [a] [b]=array [ a, b ]        兩者等價
name=np.array(['bob','joe','will']) res=name==’bob’ res= array([ True, False, False], dtype=bool)
data[True,False,…..]                索引，只索取為True的部分，去掉False部分
通過布爾型索引選取數(shù)組中的數(shù)據(jù)，將總是創(chuàng)建數(shù)據(jù)的副本。
data[ [4,3,0,6] ]                   索引，將第4,3,0,6行摘取出來，組成新數(shù)組
data[-1]=data[data.__len__()-1]
numpy.reshape(a,b)                  將a*b的一維數(shù)組排列為a*b的形式
array([a,b,c,d],[d,e,f,g])          返回一維數(shù)組，分別為[a,d],[b,e],[c,f],[d,g]
array[ [a,b,c,d] ][:,[e,f,g,h] ]=array[ numpy.ix_( [a,b,c,d],[e,f,g,h] ) ]
array.T                             array的轉(zhuǎn)置
numpy.random.randn(a,b)             生成a*b的隨機(jī)數(shù)組
numpy.dot(matrix_1,matrix_2)        矩陣乘法
array.transpose( (1,0,2,etc.) )     對于高維數(shù)組，轉(zhuǎn)置需要一個由軸編號組成的元組

創(chuàng)建ndarray：
    array()         將列表轉(zhuǎn)換為數(shù)組，可選擇顯式指定dtype
    arange()        range的numpy版，支持浮點(diǎn)數(shù)，np.arange(2,10,0.2) 步長可以為小數(shù)
    linspace()      類似arange()，第三個參數(shù)為數(shù)組長度，分為多少份
    zeros()         根據(jù)指定形狀和dtype創(chuàng)建全0數(shù)組
    ones()          根據(jù)指定形狀和dtype創(chuàng)建全1數(shù)組
    empty()         根據(jù)指定形狀和dtype創(chuàng)建空數(shù)組（隨機(jī)值）
    eye()           根據(jù)指定邊長和dtype創(chuàng)建單位矩陣

六、NumPy：索引和切片

1、數(shù)組和標(biāo)量之間的運(yùn)算

a+1 a*3 1//a a**0.5

2、同樣大小數(shù)組之間的運(yùn)算

a+b a/b a**b

3、數(shù)組的索引：

一維數(shù)組：a[5]

多維數(shù)組：

列表式寫法：a[2][3]

新式寫法：a[2,3] (推薦)

數(shù)組的切片：

一維數(shù)組：a[5:8] a[4:] a[2:10] = 1

多維數(shù)組：a[1:2, 3:4] a[:,3:5] a[:,1]

4、強(qiáng)調(diào)：與列表不同，數(shù)組切片時并不會自動復(fù)制，在切片數(shù)組上的修改會影響原數(shù)組。【解決方法：copy()】

arr=np.arange(10).reshape(2,5)             #生成的數(shù)組元素0到9通過reshape拆成兩行，五列，要拆的行列相乘必須等于數(shù)組的總元素
arr=np.arange(10).reshape(2,-1)            #后面-1是占位的，會通過計(jì)算得到列數(shù)
ag=[random.randint(1,10) for _ in range(20)]
list(filter(lambda x:x>5,ag))            #過濾大于5的元素列表
ag= np.array(ag)
a[a>5]                                   #給一個數(shù)組，選出數(shù)組中所有大于5的數(shù)
a[(a>5) & (a%2==0)]                      #給一個數(shù)組，選出數(shù)組中所有大于5的偶數(shù)
a[(a>5) | (a%2==0)]                       #給一個數(shù)組，選出數(shù)組中所有大于5的數(shù)和偶數(shù)。


import numpy as np
a = np.array([1,2,3,4,5,4,7,8,9,10])
a[a>5&(a%2==0)]                               #注意加括號
輸出：array([ 1,  2,  3,  4,  5,  4,  7,  8,  9, 10])
a[(a>5)&(a%2==0)]
輸出：array([ 8, 10])


對一個二維數(shù)組，選出其第一列和第三列，組成新的二維數(shù)組
a[:,[1,3]]

七、NumPy：通用函數(shù)’

通用函數(shù)：能同時對數(shù)組中所有元素進(jìn)行運(yùn)算的函數(shù)

常見通用函數(shù)：

一元函數(shù)：abs, sqrt, exp, log, ceil, floor, rint, trunc, modf, isnan, isinf, cos, sin, tan

numpy.sqrt(array)                   平方根函數(shù)
numpy.exp(array)                    e^array[i]的數(shù)組
numpy.abs/fabs(array)               計(jì)算絕對值
numpy.square(array)                 計(jì)算各元素的平方 等于array**2
numpy.log/log10/log2(array)         計(jì)算各元素的各種對數(shù)
numpy.sign(array)                   計(jì)算各元素正負(fù)號
numpy.isnan(array)                  計(jì)算各元素是否為NaN
numpy.isinf(array)                  計(jì)算各元素是否為inf
numpy.cos/cosh/sin/sinh/tan/tanh(array) 三角函數(shù)
numpy.modf(array)                   將array中值得整數(shù)和小數(shù)分離，作兩個數(shù)組返回
numpy.ceil(array)                   向上取整,也就是取比這個數(shù)大的整數(shù)
numpy.floor(array)                  向下取整,也就是取比這個數(shù)小的整數(shù)
numpy.rint(array)                   四舍五入
numpy.trunc(array)                  向0取整
numpy.cos(array)                       正弦值
numpy.sin(array)                    余弦值
numpy.tan(array)                    正切值

二元函數(shù)：add, substract, multiply, divide, power, mod, maximum, mininum,

numpy.add(array1,array2)            元素級加法
numpy.subtract(array1,array2)       元素級減法
numpy.multiply(array1,array2)       元素級乘法
numpy.divide(array1,array2)         元素級除法 array1./array2
numpy.power(array1,array2)          元素級指數(shù) array1.^array2
numpy.maximum/minimum(array1,aray2) 元素級最大值/最小值
numpy.fmax/fmin(array1,array2)      元素級最大值，忽略NaN
numpy.mod(array1,array2)            元素級求模
numpy.copysign(array1,array2)       將第二個數(shù)組中值得符號復(fù)制給第一個數(shù)組中值
numpy.greater/greater_equal/less/less_equal/equal/not_equal (array1,array2)
元素級比較運(yùn)算，產(chǎn)生布爾數(shù)組
numpy.logical_end/logical_or/logic_xor(array1,array2)元素級的真值邏輯運(yùn)算

浮點(diǎn)數(shù)有兩個特殊值：

nan(Not a Number)：不等于任何浮點(diǎn)數(shù)（nan != nan）

inf(infinity)：比任何浮點(diǎn)數(shù)都大

NumPy中創(chuàng)建特殊值：np.nannp.inf

在數(shù)據(jù)分析中，nan常被用作表示數(shù)據(jù)缺失值
a=np.nan
b=np.inf
np.isnan(a)                       #判斷a是否是nan
np.isinf(b)                      #判斷b是否是inf
a[~np.isnan(a)]                   #刪除數(shù)組中的nan

八、NumPy：數(shù)學(xué)和統(tǒng)計(jì)方法

1、常用函數(shù)：

sum求和
cumsum 求前綴和
mean求平均數(shù)
std求標(biāo)準(zhǔn)差
var求方差
min求最小值
max求最大值
argmin求最小值索引
argmax求最大值索引

arr=np.arange(15).reshape(3,5)
arr.sum(axis=0)              #行作為軸，對數(shù)組逐列求和
arr.sum(axis=1)              #列作為軸，對數(shù)組逐行求和

2、NumPy：隨機(jī)數(shù)生成

隨機(jī)數(shù)生成函數(shù)在np.random子包內(nèi)

常用函數(shù)
rand給定形狀產(chǎn)生隨機(jī)數(shù)組（0到1之間的數(shù)）
randint給定形狀產(chǎn)生隨機(jī)整數(shù)
choice給定形狀產(chǎn)生隨機(jī)選擇
shuffle與random.shuffle相同
uniform給定形狀產(chǎn)生隨機(jī)小數(shù)數(shù)組

九、pandas簡單介紹

pandas是一個基于NumPy構(gòu)建的強(qiáng)大的Python數(shù)據(jù)分析的工具包。

1、pandas的主要功能

具備對其功能的數(shù)據(jù)結(jié)構(gòu)DataFrame、Series

集成時間序列功能

提供豐富的數(shù)學(xué)運(yùn)算和操作

靈活處理缺失數(shù)據(jù)

2、安裝方法：pip install pandas

3、引用方法：import pandas as pd

十、Series

Series是一種類似于一位數(shù)組的對象，由一組數(shù)據(jù)和一組與之相關(guān)的數(shù)據(jù)標(biāo)簽（索引）組成。

1、創(chuàng)建方式：

    pd.Series([4,7,-5,3])                                      #默認(rèn)元素下標(biāo)數(shù)字
    pd.Series([4,7,-5,3],index=['a','b','c','d'])            #兩套索引系統(tǒng)，下標(biāo)和標(biāo)簽
    pd.Series({'a':1, 'b':2})
    pd.Series(0, index=['a','b','c','d'])

2、Series支持?jǐn)?shù)組的特性：

從ndarray創(chuàng)建Series：Series(arr)

與標(biāo)量運(yùn)算：sr*2

兩個Series運(yùn)算：sr1+sr2

索引：sr[0], sr[[1,2,4]]

切片：sr[0:2]（切片依然是視圖形式）

通用函數(shù)：np.abs(sr)

布爾值過濾：sr[sr>0]

統(tǒng)計(jì)函數(shù)：

mean() #求平均數(shù)

sum() #求和

cumsum() #累加

s = pd.Series(0,index=['a','b','c','d'])
s.a                    #結(jié)果0
v = pd.Series({'a':1,'b':2})
v.a                    #結(jié)果1
v.b                      #結(jié)果2
v[0]                    #結(jié)果1
s*2
#結(jié)果
a    0
b    0
c    0
d    0
dtype: int64
v*2
#結(jié)果
a    2
b    4
dtype: int64

3、整數(shù)索引

sr = np.Series(np.arange(4.))

sr[-1]

如果索引是整數(shù)類型，則根據(jù)整數(shù)進(jìn)行數(shù)據(jù)操作時總是面向標(biāo)簽的。

loc屬性以標(biāo)簽解釋

iloc屬性以下標(biāo)解釋

十一、pandas：Series數(shù)據(jù)對齊

pandas在運(yùn)算時，會按索引進(jìn)行對齊然后計(jì)算。如果存在不同的索引，則結(jié)果的索引是兩個操作數(shù)索引的并集。

    sr1 = pd.Series([12,23,34], index=['c','a','d'])
    sr2 = pd.Series([11,20,10], index=['d','c','a',])
    sr=sr1+sr2
    sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
    sr1+sr3
    
    如何在兩個Series對象相加時將缺失值設(shè)為0？
    sr1.add(sr2, fill_value=0)
    靈活的算術(shù)方法：add, sub, div, mul

十二、pandas：Series缺失數(shù)據(jù)

1、缺失數(shù)據(jù)：使用NaN（Not a Number）來表示缺失數(shù)據(jù)。其值等于np.nan。內(nèi)置的None值也會被當(dāng)做NaN處理。

2、處理缺失數(shù)據(jù)的相關(guān)方法：

dropna()過濾掉值為NaN的行
fillna()填充缺失數(shù)據(jù)
isnull()返回布爾數(shù)組，缺失值對應(yīng)為True
notnull()返回布爾數(shù)組，缺失值對應(yīng)為False

3、過濾缺失數(shù)據(jù)：sr.dropna() 或 sr[data.notnull()]

4、填充缺失數(shù)據(jù)：fillna(0)

sr=sr.dropna()                       #丟掉缺失值
sr=sr.fillna(0)                       #缺失值填充為0
sr=sr.fillna(sr.mean())                 #缺失值填充為平均數(shù)

十三、pandas：DataFrame與DataFrame查看數(shù)據(jù)

1、DataFrame

DataFrame是一個表格型的數(shù)據(jù)結(jié)構(gòu)，含有一組有序的列。

DataFrame可以被看做是由Series組成的字典，并且共用一個索引。

創(chuàng)建方式：
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
……
csv文件讀取與寫入：
df.read_csv('E:\算法\day110 Numpy、Pandas模塊\601318.csv')
df.to_csv()

2、DataFrame查看數(shù)據(jù)

查看數(shù)據(jù)常用屬性及方法：

index 獲取索引

T 轉(zhuǎn)置

columns 獲取列索引

values 獲取值數(shù)組

describe() 獲取快速統(tǒng)計(jì)

DataFrame各列name屬性：列名

rename(columns={})

十四、pandas：DataFrame索引和切片

1、DataFrame有行索引和列索引。

2、DataFrame同樣可以通過標(biāo)簽和位置兩種方法進(jìn)行索引和切片。

3、DataFrame使用索引切片：

方法1：兩個中括號，先取列再取行。 df['A'][0]

方法2（推薦）：使用loc / iloc屬性，一個中括號，逗號隔開，先取行再取列。

loc屬性：解釋為標(biāo)簽

iloc屬性：解釋為下標(biāo)

向DataFrame對象中寫入值時只使用方法2

行 / 列索引部分可以是常規(guī)索引、切片、布爾值索引、花式索引任意搭配。（注意：兩部分都是花式索引時結(jié)果可能與預(yù)料的不同）

通過標(biāo)簽獲取：
df['A']
df[['A', 'B']]
df['A'][0]
df[0:10][['A', 'C']]
df.loc[:, ['A', 'B']]  # 行是所有的行，列取是A和B的
df.loc[:, 'A':'C']
df.loc[0, 'A']
df.loc[0:10, ['A', 'C']]

通過位置獲?。?df.iloc[3]
df.iloc[3, 3]
df.iloc[0:3, 4:6]
df.iloc[1:5, :]
df.iloc[[1, 2, 4], [0, 3]]、

通過布爾值過濾：
　　df[df['A'] > 0]
　　df[df['A'].isin([1, 3, 5])]
　　df[df < 0] = 0

十五、pandas：DataFrame數(shù)據(jù)對齊與缺失數(shù)據(jù)

DataFrame對象在運(yùn)算時，同樣會進(jìn)行數(shù)據(jù)對齊，行索引與列索引分別對齊。

結(jié)果的行索引與列索引分別為兩個操作數(shù)的行索引與列索引的并集。

1、DataFrame處理缺失數(shù)據(jù)的相關(guān)方法：

dropna(axis=0,how=‘a(chǎn)ny’,…) 過濾掉包含值為NaN的行
fillna()填充缺失數(shù)據(jù)
isnull()返回布爾數(shù)組，缺失值對應(yīng)為True
notnull()返回布爾數(shù)組，缺失值對應(yīng)為False

df2.dropna(axis=0,how="all")            #一行全是nan的就丟掉

2、pandas：其他常用方法

- mean #求平均值

- sum #求和

- sort_index #按行或列索引排序

- sort_values #按值排序

- apply(func,axis=0) #axis=0指的是逐行，axis=1指的是逐列。

df.apply(lamada x:x.mean()) #按列求平均

df.apply(lamada x:x['high']+x["low"])/2,axis=1) #按列求平均（最高價和最低價的平均）

- applymap(func) #將函數(shù)應(yīng)用在DataFrame各個元素上

- map(func) #將函數(shù)應(yīng)用在Series各個元素上

df2=df.loc[:,"open":"low"]         #對所有行取open列到low列的元素
df2.sort_values("open")             #基于open列的數(shù)據(jù)進(jìn)行升序排序
df2.sort_values("open",ascending=False)       #基于open列的數(shù)據(jù)倒序排序

3、pandas：時間對象處理

時間序列類型：

時間戳：特定時刻

固定時期：如2017年7月

時間間隔：起始時間-結(jié)束時間

Python標(biāo)準(zhǔn)庫：datetime

datetime.datetime.timedelta # 表示時間間隔

dt.strftime() #f：format吧時間對象格式化成字符串

strptime() #吧字符串解析成時間對象p：parse

靈活處理時間對象：dateutil包

dateutil.parser.parse('2018/1/29')

成組處理時間對象：pandas

pd.to_datetime(['2001-01-01', '2002-02-02'])

產(chǎn)生時間對象數(shù)組：date_range

start 開始時間

end 結(jié)束時間

periods 時間長度

freq 時間頻率，默認(rèn)為'D'，可選H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pd.date_range(['2001-01-01', '2002-02-02'])

pd.date_range(['2001-01-01',periods=10])

4、pandas：時間序列

（1）時間序列就是以時間對象為索引的Series或DataFrame。

（2）datetime對象作為索引時是存儲在DatetimeIndex對象中的。

（3）時間序列特殊功能：

傳入“年”或“年月”作為切片方式

傳入日期范圍作為切片方式

豐富的函數(shù)支持：resample(), strftime(), ……

批量轉(zhuǎn)換為datetime對象：to_pydatetime()

df.index = pd.DatetimeIndex(pd.to_datetime(df["date"])) #date變成時間索引

del df["date"] #刪掉原來的date列

十六、pandas：從文件讀取

1、時間序列就是以時間對象作為索引

讀取文件：從文件名、URL、文件對象中加載數(shù)據(jù)
read_csv               默認(rèn)分隔符為逗號
read_table            默認(rèn)分隔符為\t
read_excel             讀取excel文件

2、讀取文件函數(shù)主要參數(shù)：

sep                  指定分隔符，可用正則表達(dá)式如'\s+'
header = None             指定文件無列名
name                 指定列名
index_col             指定某列作為索引
skip_row              指定跳過某些行
na_values             指定某些字符串表示缺失值，na_values=["None","null"],對應(yīng)的顯示為nan
parse_dates           指定某些列是否被解析為日期，布爾值或列表，為True表示轉(zhuǎn)換為時間對象
df = pd.read_csv("601318.csv")                # 默認(rèn)以,為分隔符
     - pd.read_csv("601318.csv", sep='\s+')  # 匹配空格，支持正則表達(dá)式
     - pd.read_table("601318.csv", sep=',')  # 和df = pd.read_csv("601318.csv")   一樣
     - pd.read_excle("601318.xlsx")          # 讀Excel文件
     
sep：指定分隔符
header = None, 就會吧默認(rèn)的表名去除,如果后面names=list("abcdef")表示使用abcdef作為header
df.rename(column={0: 'a', 1: "b"})  # 修改列名
pd.read_csv(index_col=0)              # 第0列
如果想讓時間成為索引，pd.read_csv(index_col='date')  # 時間列
pd.read_csv(index_col='date', parse_datas=True)     # 時間列，parse_datas轉(zhuǎn)換為時間對象，設(shè)為true是吧所有能轉(zhuǎn)的都轉(zhuǎn)
pd.read_csv(index_col='date', parse_datas=['date'])  # 把date的那一列轉(zhuǎn)換成時間對象
na_values = ['None']  # 吧表里面為None的轉(zhuǎn)換成NaN，是吧字符串轉(zhuǎn)換成缺失值
na_rep()               # 是吧缺失值nan轉(zhuǎn)換成字符串

cols                   # 指定輸出的列，傳入列表

十七、pandas：寫入到文件

1、寫入到文件：

to_csv

2、寫入文件函數(shù)的主要參數(shù)：

sep

na_rep 指定缺失值轉(zhuǎn)換的字符串，默認(rèn)為空字符串

header = False 不輸出列名一行

index = False 不輸出行索引一列

cols 指定輸出的列，傳入列表

3、其他文件類型：json, XML, HTML, 數(shù)據(jù)庫

4、pandas轉(zhuǎn)換為二進(jìn)制文件格式（pickle）:

save

load

十八、pandas:數(shù)據(jù)分組與聚合

分組
df = pd.DateFrame({
'data1':np.random.uniform(10, 20, 5),
'data2':np.random.uniform(-10, 10, 5),
'key1':list("sbbsb")
'key2':
})
df.groupby('key1').mean()  # 做平均
df.groupby('key1').sum()  # 做平均
df.groupby(['key1', 'key2']).mean()  # 做平均  支持分層索引，按多列分組
df.groupby(len).mean()  # 傳一個函數(shù)的時候，x是每一個行的索引
df.groupby(lambda x: len(x)).mean()  # 傳一個函數(shù)的時候，x是每一個行的索引
df.groupby.groups()  # 取得多有的組
df.groupby.get_group()  # 取得一個組


聚合
df.groupby('key1').max()[['data1', 'data2']]  # 去掉key2的data1，data2，花式索引
df.groupby('key1').max()[['data1', 'data2']] - df.groupby('key1').min()[['data1', 'data2']]  # 去掉key2
df.groupby('key1').agg(lamada
x:x.max() - x.min())
既想看最大也可看最小
df.groupby('key1').agg([np.max, np.min])
不同的列不一樣的聚合
df.groupby('key1').agg({'data1': 'min', 'data2': 'max'})  # 鍵是列名，值是
a = _219  # 219行的代碼
a.resample('3D'), mean()  # 3D 3天，3M就是三周

數(shù)據(jù)合并
- 數(shù)據(jù)拼接
df = df.copy()
pd.concat([df, df2, df3], ignore_index=True)  # 不用之前的索引，
pd.concat([df, df2, df3], axis=1)  # 列
pd.concat([df, df2, df3], keys=['a', 'b', 'c'])  # 不用之前的索引，
df2.appeng(df3)
- 數(shù)據(jù)連接
如果不指定on，默認(rèn)是行索引進(jìn)行join
pd.merge(df, df3, on='key1')
pd.merge(df, df3, on='['key1','key2'])

十九、簡單介紹Matplotlib

1、Matplotlib是一個強(qiáng)大的Python繪圖和數(shù)據(jù)可視化的工具包

2、安裝方法：pip install matplotlib

3、引用方法：import matplotlib.pyplot as plt

4、繪圖函數(shù)：plt.plot()

5、顯示圖像：plt.show()

6、plot函數(shù)

（1）plot函數(shù)：繪制折線圖

線型linestyle（-,-.,--,..）

點(diǎn)型marker（v,^,s,*,H,+,x,D,o,…）

顏色color（b,g,r,y,k,w,…）

（2）plot函數(shù)繪制多條曲線

（3）pandas包對plot的支持

7、圖像標(biāo)注

設(shè)置圖像標(biāo)題：plt.title()

設(shè)置x軸名稱：plt.xlabel()

設(shè)置y軸名稱：plt.ylabel()

設(shè)置x軸范圍：plt.xlim()

設(shè)置y軸范圍：plt.ylim()

設(shè)置x軸刻度：plt.xticks()

設(shè)置y軸刻度：plt.yticks()

設(shè)置曲線圖例：plt.legend()

二十、示例

使用Matplotlib模塊在一個窗口中繪制數(shù)學(xué)函數(shù)y=x, y=x2, y=sin(x)的圖像，使用不同顏色的線加以區(qū)別

x=np.linspace(-100,100,10000))
y1=x
y2=x**2
y3=np.sin(x)
plt.plot(x,y1,label="$y=x$")
plt.plot(x,y2,label="$y=x^2$")
plt.plot(x,y3,label="$y=\sin x$")
plt.ylim(-100,100)            #顯示Y軸范圍自定義
plt.legend()
plt.show()

二十一、圖形定義

金融與量化投資

本文題目：金融與量化投資
鏈接分享：http://bm7419.com/article46/isgihg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供營銷型網(wǎng)站建設(shè)、網(wǎng)站收錄、軟件開發(fā)、網(wǎng)站策劃、靜態(tài)網(wǎng)站、

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容