很黄很黄的摸下面视频,后入到高潮免费观看,精品人妻无码区二区三区

微信視覺(jué)團(tuán)隊(duì)斬獲CVPR Video Similarity大賽雙賽道冠軍，視頻號(hào)也用到了這些技術(shù)_天天最資訊

來(lái)源：機(jī)器之心時(shí)間：2023-06-23 07:58:10

(相關(guān)資料圖)

機(jī)器之心專(zhuān)欄

機(jī)器之心編輯部

視頻的內(nèi)容理解在內(nèi)容審核、產(chǎn)品運(yùn)營(yíng)和搜索推薦等場(chǎng)景都有重要作用。其中，Video Similarity（視頻相似性）是視頻理解最底層最重要的技術(shù)之一，應(yīng)用在短視頻搬運(yùn)打擊、直播錄播和盜播打擊以及黑庫(kù)檢索等場(chǎng)景，這些應(yīng)用對(duì)視頻內(nèi)容生態(tài)至關(guān)重要。微信視覺(jué)團(tuán)隊(duì)報(bào)名參加了 CVPR 2023 Video Similarity Challenge，該比賽由 Meta AI 主辦，旨在推動(dòng)視頻拷貝檢測(cè)領(lǐng)域的進(jìn)步。團(tuán)隊(duì)最終獲得該比賽雙賽道冠軍，得分遠(yuǎn)超其他團(tuán)隊(duì)，相關(guān)技術(shù)方案也在視頻號(hào)落地使用。

任務(wù)背景

視頻拷貝檢測(cè)（Video Copy Detection）旨在檢測(cè)一個(gè)視頻是否拷貝了另外一個(gè)視頻，包括完整拷貝、片段剪輯以及各種濾鏡特效花邊字幕等編輯對(duì)抗。這種技術(shù)起源于視頻版權(quán)保護(hù)，隨著短視頻平臺(tái)的興起，視頻創(chuàng)作如雨后春筍般涌現(xiàn)，互聯(lián)網(wǎng)上每天有上億的新視頻創(chuàng)作和分享，同時(shí)也伴隨著極其嚴(yán)重的拷貝。如何打擊拷貝、鼓勵(lì)原創(chuàng)，對(duì)短視頻平臺(tái)的內(nèi)容生態(tài)至關(guān)重要。而因?yàn)槠渲邪殡S巨大經(jīng)濟(jì)利益，黑灰產(chǎn)會(huì)通過(guò)各種編輯手段對(duì)抗檢測(cè)，這對(duì)技術(shù)提出了巨大的挑戰(zhàn)。

下面是一些視頻拷貝的實(shí)際例子，左邊和右邊分別是同一視頻的不同拷貝版本。

圖 1：視頻號(hào)的實(shí)際拷貝視頻舉例，有片段剪輯、剪裁、加黑邊等對(duì)抗

比賽介紹

Video?Similarity?Challenge 是由 Meta AI 在 CVPR 2023 Workshop 上舉辦的競(jìng)賽，獎(jiǎng)金 10 萬(wàn)美元，旨在推動(dòng)視頻拷貝檢測(cè)領(lǐng)域的進(jìn)步。比賽設(shè)立了 Descriptor Track 和 Matching Track 兩個(gè)賽道，Descriptor Track 的目的是生成視頻 embedding 計(jì)算兩個(gè)視頻相似得分，embedding 可以通過(guò)向量索引快速召回相似視頻；而 Matching Track 則可以對(duì)召回的結(jié)果做精確的匹配，并進(jìn)一步定位到拷貝片段。Descriptor Track 和 Matching Track 是 Video Copy Detection 工作中的兩個(gè)環(huán)節(jié)，每個(gè)環(huán)節(jié)對(duì)于最終的檢測(cè)效果都有重要的影響。

圖 2：Video Copy Detection 中 Descriptor Track 和 Matching Track 的關(guān)系。Descriptor Track 生成視頻 embedding 并從參考視頻中召回被拷貝視頻，Matching Track 在此基礎(chǔ)上定位拷貝片段。

數(shù)據(jù)

數(shù)據(jù)集中主要包含 query 和 reference 兩類(lèi) video，其中 reference 一般是用戶(hù)正常發(fā)表的視頻，與之存在拷貝關(guān)系的 query 則是通過(guò)一些編輯方法，對(duì) reference 中的片段進(jìn)行搬運(yùn)和拷貝，從而產(chǎn)生的新視頻。下表是比賽數(shù)據(jù)集的分布統(tǒng)計(jì)情況，階段 1 和階段 2 是兩個(gè)獨(dú)立的封閉測(cè)試階段，兩個(gè)測(cè)試階段的 reference 集合一致。

通常來(lái)講，如果存在拷貝關(guān)系，query 和 video 在視頻的某些片段上，會(huì)存在高度的語(yǔ)義相似性。但并非所有的相似視頻都存在拷貝關(guān)系，如下圖所示，query 和 reference 雖然是相似視頻，但它們?cè)谝曨l語(yǔ)義層面并不存在拷貝關(guān)系。所以判斷 query 和 reference 是否存在拷貝關(guān)系，需要分析和比對(duì)整個(gè) video 層面的語(yǔ)義，這也是本次挑戰(zhàn)賽的難點(diǎn)之一。

圖 3：拷貝視頻樣例，左邊為 reference 視頻，右邊為拷貝了 reference 片段的 query 視頻

圖 4：左邊為 reference 視頻，右邊為正常的 query 視頻，兩者相似但不存在拷貝關(guān)系

評(píng)測(cè)方法

Descriptor Track，需要模型給每個(gè) query 和 reference 推理至多 1 fps 的 embedding 集合，通過(guò)計(jì)算兩個(gè) embedding 集合的 pairwise 最大內(nèi)積相似性，得到每個(gè) query 和 reference pair 拷貝關(guān)系的預(yù)測(cè)置信度。所有 query 和 reference 的置信度得分降序排列，通過(guò)一個(gè)全局的置信度閾值來(lái)控制召回的 pair 數(shù)目，最終與 ground truth 計(jì)算 micro-average precision。

Matching Track，模型需要不僅給出存在 copy 關(guān)系的 query 和 reference，還要求定位 copy segment 在 query 和 reference 中的起始位置，以及相應(yīng)置信度。下圖給出了單個(gè) segment 上 precision-recall 計(jì)算方法，可以看出 segment location 與真實(shí) ground truth 的重合度越高，對(duì)應(yīng)的 pr 值也越高。所有 segments 按置信度降序排列，最終與 ground truth 計(jì)算 micro-average precision。

圖 5：matching track 單個(gè) segment 的 precision-recall 計(jì)算方法

相關(guān)工作

Descriptor Track

Descriptor 主要依賴(lài) embedding 做召回，而 contrastive learning 依托于其高效率的學(xué)習(xí)方法，逐漸成為訓(xùn)練 embedding 的主流方法。微信視覺(jué)團(tuán)隊(duì)在 descriptor track 也基于對(duì)比學(xué)習(xí)的方案，并對(duì)幾篇經(jīng)典的工作做了簡(jiǎn)單梳理。SimCLR [20] 采用了隨機(jī)裁剪、縮放、翻轉(zhuǎn)、色彩失真和高斯模糊等更多樣的增強(qiáng)方法和組合，將同一批次內(nèi)的其他樣本作為負(fù)樣本，框架簡(jiǎn)單，效果顯著，但是受 batch size 大小影響大。MoCo [22] 構(gòu)造了一個(gè)負(fù)樣本隊(duì)列來(lái)擴(kuò)大采樣的負(fù)樣本數(shù)量和范圍，并通過(guò)動(dòng)量編碼器更新隊(duì)列，從而避免了受 batch size 大小的影響。BYOL [21] 采用了非對(duì)稱(chēng)的結(jié)構(gòu)，不需要負(fù)樣本，通過(guò)自舉學(xué)習(xí)，使用兩個(gè)網(wǎng)絡(luò)（在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)）來(lái)訓(xùn)練模型來(lái)避免 model collapse 的問(wèn)題。SwAV [18] 引入了聚類(lèi)的思想，不再需要成對(duì)的比較，而是比較在不同視角下的聚類(lèi)結(jié)果。DINO [19] 動(dòng)態(tài)更新 teacher-student 網(wǎng)絡(luò)，利用 teacher 蒸餾 student，用 momentum 機(jī)制做平滑，增加穩(wěn)定性同時(shí)避免 collapse。

Matching Track

拷貝片段的定位通?；趲?jí)別特征，因此傳統(tǒng)方法會(huì)產(chǎn)生一個(gè)幀到幀的相似度矩陣，在該相似度矩陣上定位連續(xù)片段。早期的工作有時(shí)序霍夫投票 (Temporal Hough Voting)[15]，基于圖結(jié)構(gòu)的時(shí)序網(wǎng)絡(luò) (Graph-based Temporal Network)[16]，和動(dòng)態(tài)規(guī)劃算法 (Dynamic Programming)[17]。隨后，SPD [13] 將目標(biāo)檢測(cè)引入該任務(wù)，使任務(wù)變?yōu)閺南嗨贫染仃嚿蠙z測(cè)拷貝區(qū)域。最近的 TransVCL [14] 引入 Transformer 結(jié)構(gòu)進(jìn)一步學(xué)習(xí)視頻間和視頻內(nèi)的幀級(jí)別特征交互，取得了最新的 SOTA 結(jié)果。在比賽中，微信視覺(jué)團(tuán)隊(duì)復(fù)現(xiàn)了 Temporal Network 和 TransVCL，并提出了自己的新方案，在比賽數(shù)據(jù)集上，微信視覺(jué)團(tuán)隊(duì)的方案遠(yuǎn)超這些學(xué)術(shù) SOTA 方案。

Descriptor Track 解決方案

問(wèn)題分析

Descriptor Track 的核心目的是基于 embedding 召回潛在的 copy video pair，在學(xué)術(shù)方法上，對(duì)比學(xué)習(xí) contrastive learning 是訓(xùn)練 embedding 的有效手段。因此如何在該場(chǎng)景下，針對(duì)數(shù)據(jù)集的特點(diǎn)和難點(diǎn)，訓(xùn)練一個(gè)高效率的 embedding 是微信視覺(jué)團(tuán)隊(duì)要探究的課題。首先，微信視覺(jué)團(tuán)隊(duì)對(duì)數(shù)據(jù)做了細(xì)致的分析，總結(jié)了數(shù)據(jù)集中的幾種常見(jiàn)樣本：

無(wú)增強(qiáng)的視頻，它們更接近用戶(hù)發(fā)表的原視頻。經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn)，該類(lèi) query 存在 copy reference 的概率很低，但極易造成相似視頻的誤召回。

隨機(jī)增強(qiáng)的視頻，官方為了增加數(shù)據(jù)集的復(fù)雜性，對(duì) query 和 reference 都做了不同程度的隨機(jī)增強(qiáng)，包括基礎(chǔ)的 GaussNoise、GaussBlur、Crop、Pad、Rotation、ColorJitter、Compression 等，也包含復(fù)雜的 OverlayEmoji、OverlayText、OverlayVideo 等。

多場(chǎng)景視頻，另一種困難樣本主要是在視頻幀中堆疊多個(gè)場(chǎng)景，這導(dǎo)致了同一幀中的場(chǎng)景差異很大，同時(shí)不同場(chǎng)景又各自會(huì)經(jīng)過(guò)不同的增強(qiáng)，這使得常規(guī)的方式很難處理好這種樣本。

圖 6：Query 視頻中的 3 種類(lèi)型的樣本，(a) 無(wú)增強(qiáng)視頻；(b) 增強(qiáng)視頻；(c) 多場(chǎng)景視頻

解決方案

經(jīng)過(guò)數(shù)據(jù)分析，微信視覺(jué)團(tuán)隊(duì)明確了該任務(wù)的主要難點(diǎn)，針對(duì)這些難點(diǎn)，提出了一個(gè)兩階段檢測(cè)方法來(lái)識(shí)別拷貝視頻。圖 7 展示了微信視覺(jué)團(tuán)隊(duì)解決方案的整體框架，該方法主要分為 Frame-Level Embedding，Video Editing Detection 和 Frame Scenes Detection 三個(gè)模塊。

圖 7：微信視覺(jué)團(tuán)隊(duì)提出的解決方案的推理過(guò)程，(a) query 視頻經(jīng)過(guò) Video Editing Detection 模塊得到高置信度的 query; (b) query 的每一幀經(jīng)過(guò) Frame Scenes Detection 做分析和多圖拆解；(c) 每一幀視頻經(jīng)過(guò)基線模型提取 embedding，形成 query 的視頻幀 embedding 集合。

1. Frame-Level Embedding

模型框架:由于需要兼容 Matching Track 對(duì)幀級(jí)別特征的需求，微信視覺(jué)團(tuán)隊(duì)訓(xùn)練的表征模型是在幀級(jí)別上進(jìn)行的，主要基于 contrastive learning 框架進(jìn)行自監(jiān)督訓(xùn)練。對(duì)于采樣到的視頻幀，微信視覺(jué)團(tuán)隊(duì)基于上面提到的增強(qiáng)方式對(duì)視頻幀進(jìn)行不同的變換增強(qiáng)得到兩張圖像作為正樣本，其他圖像作為負(fù)樣本進(jìn)行學(xué)習(xí)。為了測(cè)試不同種類(lèi)的基礎(chǔ) backbone 性能，以及方便后續(xù)做模型 ensemble，微信視覺(jué)團(tuán)隊(duì)訓(xùn)練了 CNN-based、ViT-based 以及 Swin Transformer-based models 作為對(duì)比學(xué)習(xí)的基線模型。最終做 embedding ensemble 時(shí)，每幀視頻共提交了 4 組 embedding，拼接后經(jīng)過(guò) PCA 算法降維到官方要求的維度。

損失函數(shù):在損失函數(shù)上，除了常用的 InfoNCE Loss，微信視覺(jué)團(tuán)隊(duì)參考 SSCD [1] 引入了 Differential Entropy Loss [3]，該損失的作用可以直觀地理解為在特征空間中將同一 batch 內(nèi)最近的負(fù)樣本推遠(yuǎn)。

公式中的 N 表示 batch 中的樣本數(shù)量，z 表示圖像特征，表示除了 i 以外的樣本。

2. Video Editing Detection

微信視覺(jué)團(tuán)隊(duì)統(tǒng)計(jì)發(fā)現(xiàn)，無(wú)增強(qiáng)視頻通常不是拷貝視頻，并且會(huì)帶來(lái)錯(cuò)誤的召回，而圖像表征模型訓(xùn)練得越好，這種錯(cuò)誤召回的置信度就越高，所以在單幀的語(yǔ)義表征層面很難處理這種情況。因此，微信視覺(jué)團(tuán)隊(duì)用一個(gè) video-level 的分類(lèi)模型來(lái)初步判斷 query 中是否存在增強(qiáng)信息，如不存在增強(qiáng)，就使用一個(gè)模值非常小的隨機(jī)向量作為 query 的表征，這樣在召回過(guò)程中與任意 reference 的拷貝置信度非常小，不會(huì)產(chǎn)生置信度很高的錯(cuò)誤召回。

Video Editing Detection 的模型結(jié)構(gòu)為 CLIP [2] 和 Roberta [4,6] 兩個(gè)部分，微信視覺(jué)團(tuán)隊(duì)用 CLIP ViT-L/14 提取視頻幀特征，然后將特征序列輸入到 Roberta 模型中，進(jìn)行二分類(lèi)，這個(gè)模型在比賽數(shù)據(jù)集上的 Accuracy 和 AP 都可以達(dá)到以上。

3. Frame Scenes Detection

在該任務(wù)場(chǎng)景中，多場(chǎng)景視頻是一種典型的困難樣例，微信視覺(jué)團(tuán)隊(duì)發(fā)現(xiàn)多場(chǎng)景通常是在水平或垂直方向上的拼接，這使得采用傳統(tǒng)的邊緣檢測(cè)方法就能檢測(cè)幀內(nèi)是否存在不同的場(chǎng)景區(qū)域并進(jìn)行切分子圖。微信視覺(jué)團(tuán)隊(duì)將切分后得到的子圖也分別提取特征，作為該視頻幀的表征。

Matching Track 解決方案

圖 8：Matching Track 解決方案，(a) Feature Extraction 前處理模塊提取視頻幀粒度的特征矩陣；(b) Similar Segment Matching 模塊基于相似性矩陣預(yù)測(cè)潛在的 copy 路徑；(c) Similar Segment Parsing 模塊解析得到具體的 copy 片段。

解決方案

1. Feature Extraction

微信視覺(jué)團(tuán)隊(duì)的 Matching Track 解決方案是在 Descriptor Track 方案的基礎(chǔ)上設(shè)計(jì)的，因此團(tuán)隊(duì)沿用 Descriptor Track 的 Frame Scenes Detection 以及 Frame-Level Embedding 兩個(gè)模塊來(lái)做前處理提取特征。在 Matching Track 的方案中，由于存在更細(xì)粒度的后處理模塊，故沒(méi)有 Video Editing Detection 模塊。

2. Similar Segment Matching

微信視覺(jué)團(tuán)隊(duì)的解決方案基于 query 視頻和 reference 視頻的相似度矩陣來(lái)定位 copy 片段，將 query 視頻和 reference 視頻統(tǒng)一截?cái)嗷蛘咛畛涞介L(zhǎng)寬均為 128 的相似度矩陣，采用高分辨率網(wǎng)絡(luò) HRNet-w18 [8] 作為處理相似度矩陣圖的骨干網(wǎng)絡(luò)，輸出的目標(biāo)為根據(jù) ground truth 生成的熱圖，以準(zhǔn)確反映匹配關(guān)系。在下圖 9 中展示了一些實(shí)際的輸入和輸出的樣例，可以看到左側(cè) 3 個(gè) copy 片段在模型處理后十分明顯。

圖 9：Matching Track 模型處理的一些實(shí)例，第一行為輸入的原始相似度矩陣，第二行為經(jīng)過(guò) HRNet 后輸出的匹配關(guān)系圖，左邊 3 個(gè)例子為存在 copy 片段的結(jié)果，右邊 2 個(gè)為不存在 copy 片段的結(jié)果。

3. Similar Segment Parsing

在獲得準(zhǔn)確的匹配關(guān)系圖后，需要從中解析得到 copy 片段的具體位置，在這里微信視覺(jué)團(tuán)隊(duì)有兩個(gè)設(shè)計(jì)：(1) 使用分類(lèi)模型來(lái)過(guò)濾錯(cuò)誤的 matching 結(jié)果，比如圖 7 中右邊 2 個(gè)樣例，通過(guò)一個(gè)簡(jiǎn)單的分類(lèi)模型可以過(guò)濾掉。(2) 使用連通分量算法和 RANSAC 回歸算法 [9] 來(lái)識(shí)別匹配圖中的 copy 片段的位置。

比賽結(jié)果

微信視覺(jué)團(tuán)隊(duì)團(tuán)隊(duì)最終包攬了 Video Similarity Challenge 雙賽道的冠軍，并且在得分上遠(yuǎn)超其他團(tuán)隊(duì)，證實(shí)了微信視覺(jué)團(tuán)隊(duì)解決方案的有效性。

Descriptor Track 最終榜單

Matching Track 最終榜單

在 Descriptor Track 上，微信視覺(jué)團(tuán)隊(duì)在 uAP 指標(biāo)上取得了的成績(jī)，相比第 2 名的有明顯提升；在 Matching Track 上，微信視覺(jué)團(tuán)隊(duì)的方案展現(xiàn)了驚人的效果，在 uAP 指標(biāo)上達(dá)到了，遠(yuǎn)超其他參賽者，本文的相關(guān)工作已發(fā)表于 [10][11] 。

總結(jié)和展望

微信視覺(jué)團(tuán)隊(duì)在 Video Similarity Challenge 上奪得雙賽道冠軍，展示了團(tuán)隊(duì)在視頻相似檢索和 copy detection 技術(shù)上處于業(yè)界領(lǐng)先地位。目前，相關(guān)技術(shù)已經(jīng)落地到視頻號(hào)產(chǎn)品中，后續(xù)將持續(xù)優(yōu)化，打擊黑灰產(chǎn)，維護(hù)微信的內(nèi)容生態(tài)健康。

參考文獻(xiàn)

[1] Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, and Matthijs Douze. A self-supervised descriptor for image copy detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14532–14542, 2022

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021

[3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Herv ?e J ?egou. Spreading vectors for similarity search. arXiv preprint arXiv:, 2018

[4] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, and Guoping Hu. Revisiting pre-trained models for Chinese natural language processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 657–668, Online, Nov. 2020. Association for Computational Linguistics.

[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International conference on machine learning, pages 1597–1607. PMLR, 2020

[6] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:, 2019

[7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:, 2020.

[8] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In CVPR, 2019

[9] Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24 (6):381–395, 1981

[10] Tianyi Wang, Feipeng Ma, Zhenhua Liu, Fengyun Rao. A Dual-level Detection Method for Video Copy Detection. arXiv preprint arXiv:, 2023.

[11] Zhenhua Liu, Feipeng Ma, Tianyi Wang, Fengyun Rao. A Similarity Alignment Model for Video Copy Segment Matching. arXiv preprint arXiv:, 2023.

[12] Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Ioannis Patras, and Ioannis Kompatsiaris. Visil: Fine-grained spatio-temporal video similarity learning. In

IEEE International Conference on Computer Vision (ICCV), 2019.

[13] Chen Jiang, Kaiming Huang, Sifeng He, et al. Learning segment similarity and alignment in large-scale content based video retrieval. In Proceedings of the 29th ACM International Conference on Multimedia. 2021.

[14] Sifeng He, Yue He, Minlong Lu, Chen Jiang, et al. TransVCL: Attention-enhanced Video Copy Localization Network with Flexible Supervision. arXiv preprint arXiv:.

[15] Douze, Matthijs, Hervé Jégou, and Cordelia Schmid. An image-based approach to video copy detection with spatio-temporal post-filtering. IEEE Transactions on Multimedia, 2010.

[16] Tan, Hung-Khoon, et al. Scalable detection of partial near-duplicate videos by visual-temporal consistency. In Proceedings of the 17th ACM international conference on Multimedia. 2009.

[17] Chou, Chien-Li, Hua-Tsung Chen, and Suh-Yin Lee. Pattern-based near-duplicate video retrieval and localization on web-scale videos. IEEE Transactions on Multimedia, 2015.

[18] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Unsupervised learning of visual features by contrasting cluster assignments. Advances in neural information processing systems, 33:9912–9924, 2020.

[19] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv ?e J ?egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 9650–9660, 2021.

[20] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International conference on machine learning, pages 1597–1607. PMLR, 2020.

[21] Jean-Bastien Grill, Florian Strub, Florent Altch ?e, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, et al. Bootstrap your own latent-a new approach to self-supervised learning. Advances in neural information processing systems, 33:21271–21284, 2020.

[22] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momen-tum contrast for unsupervised visual representation learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9729–9738, 2020.

?THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道：content@

全球最資訊丨無(wú)人機(jī)飛進(jìn)鄉(xiāng)村街道周村公安全方位宣傳預(yù)防拐騙

貴港港北區(qū)強(qiáng)化監(jiān)督機(jī)制護(hù)航鄉(xiāng)村振興

環(huán)球動(dòng)態(tài):腌蘿卜的家常做法?

當(dāng)前焦點(diǎn)!特斯拉公司創(chuàng)建了一個(gè)Tesla AI的推特賬戶(hù)

每日精選：內(nèi)蒙古自治區(qū)“筑牢北疆反邪防線反邪教警示宣傳進(jìn)邊關(guān)活動(dòng)”正式啟動(dòng)

焦點(diǎn)日?qǐng)?bào)：應(yīng)急管理部派工作組赴事故現(xiàn)場(chǎng)指導(dǎo)救援處置

歸來(lái)仍是少年聊聊回歸的皇冠還有多少含金量？|環(huán)球即時(shí)看

網(wǎng)上辦事難不難？來(lái)這兒說(shuō)出你的心聲

當(dāng)前速讀：2023粵港澳車(chē)展：911 GT3 RS實(shí)車(chē)首次公眾亮相