1. å¯äº¤ä»ææ

2. Selenium ç»å¥Youtube

# è¨å®åºæ¬åæ¸
desired_capabilities = DesiredCapabilities.PHANTOMJS.copy()

#æ¤èå¿é ææèªå·±é»è¦çUser-Agent
desired_capabilities['phantomjs.page.customHeaders.User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

# PhantomJS driver è·¯å¾ ä¼¼ä¹åªè½çµå°è·¯å¾
 = webdriver.PhantomJS(executable_path = 'phantomjs', desired_capabilities=desired_capabilities)

# éééç¥æé
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.default_content_setting_values.notifications" : 2}
chrome_options.add_experimental_option("prefs",prefs)
# éåçè¦½å¨
driver = webdriver.Chrome('chromedriver',chrome_options=chrome_options)
time.sleep(5)

3. æ»¾åé é¢æ¹æ³

# æ»¾åé é¢
def scroll(driver, xpathText):
    remenber = 0
    doit = True
    while doit:
        driver.execute_script('window.scrollBy(0,4000)')
        time.sleep(1)
        element = driver.find_elements_by_xpath(xpathText) # æåæå®çæ¨ç±¤
        if len(element) &gt; remenber: # æª¢æ¥æ»¾åå¾çæ¸éæç¡å¢å 
            remenber = len(element)
        else: # æ²å¢å åçå¾ä¸ä¸ï¼ç¶å¾å¨æ»¾åä¸æ¬¡
            time.sleep(2)
            driver.execute_script('window.scrollBy(0,4000)')
            time.sleep(1)
            element = driver.find_elements_by_xpath(xpathText) # æåæå®çæ¨ç±¤
            if len(element) &gt; remenber: # æª¢æ¥æ»¾åå¾çæ¸éæç¡å¢å 
                remenber = len(element)
            else:
                doit = False # éæ¯ç¡å¢å ï¼åæ¢æ»¾å
        time.sleep(1)
    return element #åå³åç´ å§å®¹

4. æºåç®æ¨é »é

#æåYoutuber_é »éè³æ.csv
getdata = pd.read_csv('Youtuber_é »éè³æ.csv', encoding = 'utf-8-sig')
#æºåå®¹å¨
youtuberChannel = []
channelLink = []
articleLink = []
articleContent = []
postTime = []
good = []
commentNum = []
comment = []

行銷搬進大程式 éæ¬¡æ¯å°æ¯åYoutubeé »éçç¤¾ç¾¤ç¶ä¸ç¬è²ï¼æ¯åYoutubeé »éææä¸ç¾åæç« ï¼å æ¤éè¦ç¨for è¿´åå¤§éå·è¡ï¼ä¹æ¯ç¸ç¶çèæã

# éå§ä¸åä¸åç¬è²
for yName, yChannel in zip(getdata['Youtuberé »éåç¨±'], getdata['é »éç¶²å']):
    #å°ç¤¾ç¾¤é é¢
    driver.get(str(yChannel) + '/community')
    time.sleep(10)
    
    # æ»¾åé é¢
    getAll_url = scroll(driver, '//yt-formatted-string[@id="published-time-text"]/a')

5. ç¬åæææç«

# æç« ç¶²åå¿é åæ·ååºä¾
    for article in getAll_url:
        articleLink.append(article.get_attribute('href')) # åå¾æç« é£çµ
        postTime.append(article.text) # åå¾ç¼ææé
        youtuberChannel.append(yName)
        channelLink.append(yChannel)
    print('é »é'+ str(yName) + 'å±æ'+ str(len(articleLink)) + 'ç¯æç« ï¼éå§æåæç« å§å®¹')
    
    for goto_url in tqdm(articleLink):
        
        # å»å°è©²æç« 
        driver.get(goto_url)
        time.sleep(3)

6. è§£æçè¨è³æ

# åå¾æç« å§æ
good.append(driver.find_element_by_id('vote-count-middle').text) # åå¾æç« è®æ¸
time.sleep(3)
        
# åå¾çè¨ç¸½æ¸é
getcommentNum = int(driver.find_element_by_xpath('//h2[@id="count"]/yt-formatted-string/span').text)
commentNum.append(getcommentNum)
time.sleep(3)

#--- éå§é²è¡ãåå¾çè¨ãå·¥ç¨
# æ»¾åé é¢
getcomment = scroll(driver, '//div[@id="main"]')
getfans = driver.find_elements_by_id('author-text') # ç¼è¨è
    
# å²åçè¨å§å®¹
commentMan = []
manChannel = []
post_time = []
comment_content = []
comment_good = []
count = 0 # ç¨ä¾ç·¨èçè¨
containar = {}
for fans, com in zip(getfans, getcomment):
    if count != 0: # ç¬¬ä¸æ¬¡ä¸éè¦å·è¡ï¼å çºæ¯youterèªå·±çè³æ
        getcom = com.text
        getcom = getcom.replace('\nåè¦','')
        cutcom = getcom.split('\n')
        
        if len(cutcom) == 3: # è¥æ²æäººæè®ï¼åè£0
            cutcom.append(0)
        try:
            containar['çè¨'+str(count)] = {
                'ç¼è¨è':cutcom[0],
                'ç¼è¨èé »é': fans.get_attribute('href'),
                'ç¼è¨æé':cutcom[1],
                'ç¼è¨å§å®¹':cutcom[2],
                'è®æ¸':cutcom[3]
                }
        except:# ç¢°å°ç°å¸¸è³æä¹æ¥µç«¯èç
            containar['çè¨'+str(count)] = {'è³æç°å¸¸'}
    count = count + 1
comment.append(containar) # å²åææçè¨

作者：楊超霆行銷搬進大程式創辦人

上一篇
Youtube爬蟲－頻道資料｜Youtuber網紅時代不可或缺的Python技能【附程式碼】

Youtube爬蟲－影片資料｜不用API也能爬下所有影片與留言資訊【附程式碼】

行銷人轉職爬蟲王實戰｜5大社群＋2大電商

Youtubeç¬è²ï¼ç¤¾ç¾¤è³æï½ç¨Pythonæ¾å°Youtuberç¶çç²çµ²çç§å¯ãéç¨å¼ç¢¼ã

1. å¯äº¤ä»ææ

2. Selenium ç»å ¥Youtube

3. æ»¾åé é¢æ¹æ³

4. æºåç®æ¨é »é

5. ç¬åæææç«

6. è§£æçè¨è³æ

Youtubeç¬è²ï¼ç¤¾ç¾¤è³æï½ç¨Pythonæ¾å°Youtuberç¶çç²çµ²çç§å¯ãéç¨å¼ç¢¼ã

1. å¯äº¤ä»ææ

2. Selenium ç»å¥Youtube

3. æ»¾åé é¢æ¹æ³

4. æºåç®æ¨é »é

5. ç¬åæææç«

6. è§£æçè¨è³æ