1. æåºæééµåçæç«

# æåº æ¨é¡ or å§æ or ææçè¨ ä¸ï¼æåºç¾ãè±è¥¯è¡«ãéååè©çæç« 
get_shirt_data = getdata[
    getdata['æ¨é¡'].str.contains('è±è¥¯è¡«') |
    getdata['å§æ'].str.contains('è±è¥¯è¡«') |
    getdata['ææçè¨'].str.contains('è±è¥¯è¡«')
    ]

2. åä½µæææå

#--- åè¡å¡«æ»¿ç©ºå¼
get_shirt_data['æ¨é¡'] = get_shirt_data['æ¨é¡'].fillna('')
get_shirt_data['å§æ'] = get_shirt_data['å§æ'].fillna('')
get_shirt_data['ææçè¨'] = get_shirt_data['ææçè¨'].fillna('')
allstr = get_shirt_data['æ¨é¡'].sum() + get_shirt_data['å§æ'].sum() + get_shirt_data['ææçè¨'].sum() # å°æ¨é¡èå§æå¨é¨ä¸²èµ·ä¾

3. åä»£æç¡æç¾©åå

#--- åä»£æç¡æç¾©åå
replaceList = ['span','https','com','imgur','class','jpg','f6','href','rel',
               'nofollow','..','target','blank','hl','www','cc','tw','XD','f3',
               'f2','reurl','Re','http','amp','content','type','user','ipdatetime',
               '[',']','{','}','(',')',"'",':',',','/','\n','ï¼','"','â','.','=','>',
               '>','<','ï¼','ã','_','ï¼','ã','?','ï¼','-','ï¼','~','ï½','ï¼','ã',
               '!','ã','â¦','^',';','â','QQ','&','â',':',',','/','â','ï½','+']
for i in replaceList:
    allstr = allstr.replace(i,'')

4. å°æ¾ééµå

1. TF-IDFæ¼ç®æ³

# ç¨TF-IDFæ¼ç®æ³ï¼å°æ¾top 100 ééµå
keywords_top=jieba.analyse.extract_tags(allstr, # åè©
                                        topK=100, # åå¹¾å
                                        withWeight=True) # æ¯å¦è¦è¨ç®åæ¸

2. åæ³çé¼æ³

words = jieba.cut(allstr)
df_words = pd.DataFrame(list(words))
df_value_counts = df_words.value_counts()

for i in range(100):
    print(df_value_counts.index[i])

5. æ¥çåå§è³æ

# è§çåå§è³æ
import re
findword = 'UQ'
for m in re.finditer(findword, allstr): #é²è¡è³ææ¯å°
    print(
        allstr[m.start()-50 : m.start()] + # ééµåçå50åå
        'ã'+findword+'ã' + # ééµåæ¬èº«
        allstr[m.start()+len(findword): m.start()+50]+'\n' # ééµåçå¾50åå
        )

作者：楊超霆行銷搬進大程式創辦人

上一篇
PTT爬蟲｜爬下全台最大電子布告欄

Dcard爬蟲－文章資料｜爬下各版文章標題、作者、Tag…

行銷人轉職爬蟲王實戰｜5大社群＋2大電商

è³æåæå¯¦æ°ï½å©ç¨PTTè³æé²è¡æ¶è²»è ééµå­åæï¼æ¶è²»è é½å¨è¨è«ä»éº¼ï¼

1. æåºæééµå­çæç«

2. åä½µæææå­

3. åä»£æç¡æç¾©å­å 

4. å°æ¾ééµå­

1. TF-IDFæ¼ç®æ³

2. åæ³ç é¼æ³

5. æ¥çåå§è³æ

è³æåæå¯¦æ°ï½å©ç¨PTTè³æé²è¡æ¶è²»èééµååæï¼æ¶è²»èé½å¨è¨è«ä»éº¼ï¼

1. æåºæééµåçæç«

2. åä½µæææå

3. åä»£æç¡æç¾©åå

4. å°æ¾ééµå

1. TF-IDFæ¼ç®æ³

2. åæ³çé¼æ³

5. æ¥çåå§è³æ