è¦ç®å¸å ´å¤§å°é ä¼°åæï¼K-meansåç¾¤çå¯¦ä¾æç¨

1. èª²ç¨ä»ç´¹

éæ²çãç¢åéç¼å¤§è£å¸ï¼æ¡è³¼çå¥½å¹«æï¼å¦ä½æ±ºå®æ°ååSKUï¼ãï¼éä¸å¿«æåé»æï¼ å¨åç¯æç« ããè¦ç®ç¬è²ãæè©³ç´°ææææå¸ï¼ååè³æï¼çè¨è©è«ãç¶ä¸å·²ç¶åå¾äºå¨è¦ç®å¸å ´ä¸ï¼ææãè±è¥¯è¡«ãç¢åçååè³æï¼éåå¸å ´æå¹¾ç¨®æ¶è²»é¡ç¾¤å¢ï¼æ¯åé¡ç¾¤çå¸å ´ç¸½é¡æ¯å¤å°å¢ï¼åªè£¡ææå¸å ´ç¼ºå£å¢ï¼

2. å¯äº¤ä»ææ

3. æ´çååTag

from tqdm import tqdm
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
colors = ['#d9f776','#76f794','#9476f7','#f776d9','#e70e4b','#76d9f7','#f79476','#fbccbe','#befbcc','#fbbeed']
getdata = pd.read_csv('è±è¥¯è¡«_ååè³æ.csv', encoding='utf-8')
getdata.columns

#--- è¥æ²ætagï¼åå¾æç« ä¸æ´çåºTag
containar = []
for i in range(len(getdata)):
    getArticle = getdata['ååææ¡'][i] #æåæ¯ç¯ææ¡
    
    getArticle = getArticle.replace('ï¼','#') # åå½¢å¨å½¢ä¸è´
    item = []
    for j in getArticle.split('#'): # å©ç¨ã#ãä¾ååå²
        if len(j) &lt; 10 : # è¥tagå¤§æ¼10åååä¸è¨å¥
            j = j.replace(' ','') # åä»£ç©ºç½
            j = j.replace('^n','') # åä»£^n
            if len(j) &gt;0 : # è¦ç¢ºèªåä»£å®æå¾éæå©ä¸æ±è¥¿
                item.append(j)
    containar.append(item)

getdata['Tag'] = containar

4. è³ææ´ç

#--- æ´çæå¯ä»¥è¢«Kmeanåæçè³æ
KmeansData = getdata[['ååID','å¹æ ¼','æ·å²é·å®é','Tag']]

行銷搬進大程式

è¦å¦ä½è¨ç®ä½¿ç¨çæé«çTagå¢ï¼ éååé¡ä¹å°æ¾äºæå¾ä¹ï¼å¶å¯¦éä½çåçç°¡å®ãé¦åå©ç¨pandas æ¬èº«å§å»ºçsum() æ¹æ³ï¼æææååçTag å¨é¨ä¸²æ¥æä¸åListè®æ¸ï¼ä¸¦å©ç¨pd.DataFrame() æ¹æ³å°Listè½æædataFrame åæè³æã

allpro = KmeansData['Tag'].sum()
allpro = pd.DataFrame(allpro)
allpro.dropna(inplace=True)

KmeansData['Tag'] = KmeansData['Tag'].astype(str)
count=0
for i in tqdm(allpro[0].value_counts().index):
    KmeansData['c'+str(count)] = np.where(KmeansData['Tag'].str.contains(i),1,0)
    count = count+1

5. K-meansåç¾¤å¸å ´

å°ä¸åæ¥é©çæ¬ä½å¨é¨é¤µå¥Kmeansæ¼ç®æ³é²è¡åé¡ã

#--- éå§åé¡
crub = 10 #ç¸½å±è¦åæå¹¾ç¾¤
clf = KMeans(n_clusters=crub)
clf.fit(KmeansData[['c'+str(x) for x in range(count)]].values.tolist())#éå§è¨ç·´

#--- åå¾é æ¸¬çµæ
getdata['é¡ç¾¤'] = clf.labels_

6. Kmeanåé¡å

#--- Kmeanåé¡å
for i in range(crub):
    draw = getdata[getdata['é¡ç¾¤']==i]
    print('ç¬¬' + str(i) + 'ç¾¤æ¸éï¼ã' + str(len(draw)))
    plt.scatter(draw['å¹æ ¼'],draw['æ·å²é·å®é'], 
                color=colors[i], 
                label = i,
                alpha=0.5)
plt.title("Kmeanåé¡å",fontsize=30)#æ¨é¡
plt.xlabel("å¹æ ¼",fontsize=15)#yçæ¨é¡
plt.ylabel("æ·å²é·å®é",fontsize=15) #xçæ¨é¡
plt.legend(bbox_to_anchor=(1.03, 0.8), loc=2) # è¨ç½®åä¾
plt.grid(True) # grid éå
plt.tight_layout()

7. åç¾¤ééµåTop 20

æä¸æåºç¾æ²æç¹è²çç¾¤é«å¢ï¼çµå°æï¼ åå å¨æ¼å¸å ´å¤§å¤æ¸ç¢åéæ¯æ²æååéåçï¼åç®¡å¸å ´åéçè«å·²ç¶åºä¾äºååä¸ç´ï¼ä½çµå¤§å¤æ¸çæ¥ä¸»ï¼é½éæ¯å¸æä»åçååè½åå±±åæµ·çè¿ååå±¤ç´æ¶è²»èã

#--- åç¾¤tag top 20
for i in range(10)
    draw = getdata[getdata['é¡ç¾¤']==i]
    draw = pd.DataFrame(draw['Tag'].sum())[0].value_counts()
    
    plt.bar(draw.index[0:20],
            draw[0:20].values, 
            color='#d9f776',
            alpha=0.5)
    plt.xticks(rotation=70)
    plt.title("ç¬¬"+str(i)+"ç¾¤tagçtop20",fontsize=30)#æ¨é¡
    plt.xlabel("tagåç¨±",fontsize=15)#yçæ¨é¡
    plt.ylabel("æ¸é",fontsize=15) #xçæ¨é¡

    plt.tight_layout()
    plt.savefig("ç¬¬"+str(i)+"ç¾¤tagçtop20.png", dpi=300) # åæªä¸è¨å®è§£æåº¦
    plt.close()

8. è¨ç®å¸å ´ç¸½å¸å¼

#--- åç¾¤çç¸½å¸å¼
getdata['ç¸½æ¶å¥'] = getdata['å¹æ ¼'] * getdata['æ·å²é·å®é']
for i in range(10)
    draw = getdata[getdata['é¡ç¾¤']==i]
    print('ç¬¬'+str(i)+'ç¾¤ç¸½æ¶å¥ï¼ '+str(draw['ç¸½æ¶å¥'].sum()))

1. ç¸½çµ

作者：楊超霆行銷搬進大程式創辦人

上一篇
產品開發大補帖｜採購的好幫手，如何決定新商品SKU？

Amazon爬蟲－商品資料｜用Python爬下世界最大電商網站

行銷人轉職爬蟲王實戰｜5大社群＋2大電商

è¦ç®å¸å ´å¤§å°é ä¼°åæï¼K-meansåç¾¤çå¯¦ä¾æç¨

1. èª²ç¨ä»ç´¹

2. å¯äº¤ä»ææ

3. æ´çååTag

4. è³ææ´ç

5. K-meansåç¾¤å¸å ´

6. Kmeanåé¡å

7. åç¾¤ééµå­Top 20

8. è¨ç®å¸å ´ç¸½å¸å¼

1. ç¸½çµ

è¦ç®å¸å ´å¤§å°é ä¼°åæï¼K-meansåç¾¤çå¯¦ä¾æç¨

1. èª²ç¨ä»ç´¹

2. å¯äº¤ä»ææ

3. æ´çååTag

4. è³ææ´ç

5. K-meansåç¾¤å¸å ´

6. Kmeanåé¡å

7. åç¾¤ééµåTop 20

8. è¨ç®å¸å ´ç¸½å¸å¼

1. ç¸½çµ