抓取保存小紅書用戶主頁發(fā)布、收藏、點贊過的筆記
時間:2023-06-23 09:22:01
歡迎關注公眾號「月小水長」,唯一筆者是?BuyiXiao,又名小布衣、肖不已。?
BuyiXiao,何許人也?本衡州一鄉(xiāng)野村夫,身高八尺不足,年方二十有余;弱冠之年曾求學于潭州,為謀生計,背井離鄉(xiāng),遠赴京畿,我本南人,不習北土,兼有故友,威逼利誘,急于星火,遂下嶺南,打工未半,中道創(chuàng)業(yè),所為何業(yè)?賽博朋克,智能硬件;假工程師之名,行農民工之實,滿腹經綸,無用書生,善于自黑,貽笑大方。?
筆者水平有限,可能暫時無法將非常干貨的教程講的不拖泥帶水又不嘩眾取寵,公眾號文章諸多遺漏或不妥之處,可以加月小水長微信「2391527690」備注「學校專業(yè)/研究方向/工作崗位」進行交流。
(資料圖)
另外,文末點下「贊」和「在看」,這樣每次新文章推送,就會第一時間出現在你的訂閱號列表里。
假如想分析某個小紅書大 v 的數據,即主要分析它主頁發(fā)布過的筆記、點贊過和收藏過的筆記,來一瞥流量之門,首先就需要將這些數據全部抓取保存到本地。
或者不習慣小紅書的社區(qū)調性,家人們,誰懂啊,單純想把自己發(fā)布的內容備份下來,再也不想打開這個 app 了。
今天分享的小紅書爬蟲系列之小紅書主頁備份計劃,就是解決諸如此類的需求。
以華為在小紅書的官方賬號「華為終端」為例,我們導出它主頁的發(fā)布和收藏過的帖子(這個賬號沒有點贊過別人的帖子或者不可見)
發(fā)布過的筆記首先是「華為終端」發(fā)布過的筆記,導出到 csv 一共 1300 余條,每一條筆記都有筆記鏈接、筆記標題、筆記時間、筆記內容、ip 屬地、話題 ?tag 列表、艾特用戶列表、無水印封面圖、無水印筆記內圖、視頻鏈接、轉發(fā)數、點贊數、評論數、收藏數、作者鏈接、作者昵稱等幾十個字段,具體可以參見下圖。
高清封面和內容圖片鏈接可以無損下載到本地。
文本內容可以用來交給 GPT 訓練小紅書文案生成器。
也可以按照轉發(fā)數、點贊數、評論數、收藏數排序選中幾篇爆款筆記分析~
ip 屬地幾乎都在北京,標題都是華為的新品簡介,沒啥好分析的。
評論也可以全部下載下來,進行文本分析。
收藏過的筆記收藏過的筆記導出結果如下,一共 100 來條,字段信息和上面發(fā)布的筆記一樣。
本質也是筆記,也可以進行圖片下載、視頻下載、評論導出等等 action 和文本分析可視化。
點贊過的筆記點贊過的筆記也能導出,「華為終端」沒有點贊過筆記或者不可見。
如果你對這個有對服務和工具的需求,歡迎加我微信 「2391527690?」備注 「小紅書主頁備份?」,或者直接掃碼下方二維碼,伸手黨勿擾~
往期精選
復雜網絡建模 | 構建 M 層 N 節(jié)點的微博深度轉發(fā)網絡自研小紅書評論區(qū)自動回復軟件,于繁雜的客服流水作業(yè)中抽身小紅書帖子和評論自助提取工具相關稿件
《夢中的那片?!穵Z冠收官,西嘻影業(yè)全新布局乘勝前行
環(huán)球快看:寶馨智慧能源與鄭州航空港區(qū)興港電力達成戰(zhàn)略合作
標準差的計算公式實例_標準差的計算公式excel 環(huán)球今頭條
【全環(huán)境立德樹人】“紅領巾宣講團”走進煙臺高新區(qū)第三實驗小學
環(huán)球快看:三家餐飲企業(yè)過度索取個人信息被約談,上海市網信辦將繼續(xù)整治餐飲涉嫌違規(guī)問題
小聯賽重心:辛辛那提主場無敵,多倫多FC客戰(zhàn)奇差
全球熱點!新邵縣:緊盯重要時間節(jié)點 持續(xù)繃緊作風之弦
英鎊/日元匯率今日預期趨勢:看漲(2023/6/21)_全球觀點
天天快看:士為知己者死女為悅己者容典故_士為知己者死女為悅己者容
立邦中國李漢明解析城市更新三大痛點:老建筑問題檢測診斷機制急需建構 | 城博會專題報道
當前滾動:中國畫里說夏至 讀懂二十四節(jié)氣便是讀懂中國智慧
天天報道:有機農業(yè)種植技術(對于有機農業(yè)種植技術簡單介紹)
【天天熱聞】全市每年開展一次 和諧勞動關系樣板單位培育活動 《石家莊市和諧勞動關系樣板單位培育評價認定辦法(試行)》出臺

(資料圖)
