怎么在python中實(shí)現(xiàn)一個(gè)k近鄰算法-創(chuàng)新互聯(lián)

怎么在python中實(shí)現(xiàn)一個(gè)k近鄰算法?很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

我們提供的服務(wù)有:做網(wǎng)站、網(wǎng)站設(shè)計(jì)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、萬山ssl等。為上千多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的萬山網(wǎng)站制作公司

什么是kNN

kNN算法的模型就是整個(gè)訓(xùn)練數(shù)據(jù)集。當(dāng)需要對一個(gè)未知數(shù)據(jù)實(shí)例進(jìn)行預(yù)測時(shí),kNN算法會在訓(xùn)練數(shù)據(jù)集中搜尋k個(gè)最相似實(shí)例。對k個(gè)最相似實(shí)例的屬性進(jìn)行歸納,將其作為對未知實(shí)例的預(yù)測。

相似性度量依賴于數(shù)據(jù)類型。對于實(shí)數(shù),可以使用歐式距離來計(jì)算。其他類型的數(shù)據(jù),如分類數(shù)據(jù)或二進(jìn)制數(shù)據(jù),可以用漢明距離。

對于回歸問題,會返回k個(gè)最相似實(shí)例屬性的平均值。對于分類問題,會返回k個(gè)最相似實(shí)例屬性出現(xiàn)最多的屬性。

kNN如何工作

kNN屬于基于實(shí)例算法簇的競爭學(xué)習(xí)和懶惰學(xué)習(xí)算法。

基于實(shí)例的算法運(yùn)用數(shù)據(jù)實(shí)例(或數(shù)據(jù)行)對問題進(jìn)行建模,進(jìn)而做出預(yù)測決策。kNN算法算是基于實(shí)例方法的一種極端形式,因?yàn)槠浔A羲械挠?xùn)練集數(shù)據(jù)作為模型的一部分。

kNN是一個(gè)競爭學(xué)習(xí)算法,因?yàn)闉榱俗龀鰶Q策,模型內(nèi)部元素(數(shù)據(jù)實(shí)例)需要互相競爭。 數(shù)據(jù)實(shí)例之間客觀相似度的計(jì)算,促使每個(gè)數(shù)據(jù)實(shí)例都希望在競爭中“獲勝”或者盡可能地與給定的未知數(shù)據(jù)實(shí)例相似,繼而在預(yù)測中做出貢獻(xiàn)。

懶惰學(xué)習(xí)是指直到需要預(yù)測時(shí)算法才建立模型。它很懶,因?yàn)樗辉谧詈笠豢滩砰_始工作。優(yōu)點(diǎn)是只包含了與未知數(shù)據(jù)相關(guān)的數(shù)據(jù),稱之為局部模型。缺點(diǎn)是,在大型訓(xùn)練數(shù)據(jù)集中會重復(fù)相同或相似的搜索過程,帶來昂貴的計(jì)算開銷。

最后,kNN的強(qiáng)大之處在于它對數(shù)據(jù)不進(jìn)行任何假設(shè),除了任意兩個(gè)數(shù)據(jù)實(shí)例之間距離的一致計(jì)算。因此,它被稱為成為無參數(shù)或者非線性的,因?yàn)樗鼪]有預(yù)設(shè)的函數(shù)模型。

用python寫程序真的好舒服。

import numpy as np
def read_data(filename):
  '''讀取文本數(shù)據(jù),格式:特征1  特征2 …… 類別'''
  f=open(filename,'rt')
  row_list=f.readlines() #以每行作為列表
  f.close()
  data_array=[]
  labels_vector=[]
  while True:
    if not row_list:
      break
    row=row_list.pop(0).strip().split('\t') #去除換行號,分割制表符
    temp_data_row=[float(a) for a in row[:-1]] #將字符型轉(zhuǎn)換為浮點(diǎn)型
    data_array.append(temp_data_row) #取特征值
    labels_vector.append(row[-1])  #取最后一個(gè)作為類別標(biāo)簽
  return np.array(data_array),np.array(labels_vector)

def classify(test_data,dataset,labels,k):
  '''分類'''
  diff_dis_array=test_data-dataset  #使用numpy的broadcasting
  dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5  #求距離
  dis_array_index=np.argsort(dis_array)  #升序距離的索引
  class_count={}
  for i in range(k):
    temp_label=labels[dis_array_index[i]]
    class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數(shù)的字典
  sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True)  #字典的值按降序排列
  return sorted_class_count[0][0]  #返回元組列表的[0][0]

def normalize(dataset):
  '''數(shù)據(jù)歸一化'''
  return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))

k=3 #近鄰數(shù)
test_data=[0,0] #待分類數(shù)據(jù)
data,labels=read_data('testdata.txt')
print('數(shù)據(jù)集:\n',data)
print('標(biāo)簽集:\n',labels)
result=classify(test_data,normalize(data),labels,k)
print('分類結(jié)果:',result)

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。

標(biāo)題名稱:怎么在python中實(shí)現(xiàn)一個(gè)k近鄰算法-創(chuàng)新互聯(lián)
路徑分享:http://bm7419.com/article16/didjdg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站云服務(wù)器、定制開發(fā)、手機(jī)網(wǎng)站建設(shè)App開發(fā)、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)