
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
一、主要功能
-
跨模态人脸-文本对齐:同空间内做人脸与文本编码,支持“文字搜脸”与“脸搜文字”。
-
零样本人脸识别:无需额外训练即可区分训练集中未出现的人物身份。
-
人脸语义检索:输入“戴黑框眼镜的亚洲男性”等自然语言即可返回匹配人脸。
-
即插即用特征提取:提供 512 维归一化向量,可直接用于聚类、检索、比对。
二、技术原理
-
CLIP 对比学习框架:采用双塔结构,图像编码器(ResNet/ViT)与文本编码器(Transformer)共享批次内对比损失,拉近匹配对、推远非匹配对。
-
人脸专用数据增强:在 1 亿级“人脸-描述”图文对上训练,引入人脸裁剪、对齐、随机遮挡、文本模板扩充等策略,提升跨模态鲁棒性。
-
温度缩放与难例挖掘:动态温度系数 + 难负样本采样,缓解大规模对比学习中梯度噪声问题。
-
开源推理优化:提供 ONNX / TensorRT 版本,FP16 推理延迟 < 3 ms(单张 112×112)。
三、应用场景
-
智能相册:通过“毕业照”“宝宝笑”等自然语言快速找图。
-
内容审核:用敏感词文本库检索疑似违规主播或带货人脸。
-
安防布控:嫌疑人文字档案与现场人脸库快速匹配。
-
互动娱乐:直播场景实现“观众弹幕描述→实时找主播”特效。
四、使用方法
-
安装:pip install faceclip,自动下载 90 MB 轻量模型。
-
提取特征:Python
from faceclip import FaceCLIP model = FaceCLIP() face_vec = model.encode_face(image) text_vec = model.encode_text("长发女生") similarity = face_vec @ text_vec.T -
构建索引:用 FAISS 把百万级 face_vec 建成 IVF-PQ 索引,实现毫秒级检索。
-
微调:基于私有数据只训最后一层投影矩阵,1 万张图约 30 分钟完成。
五、适用人群
-
计算机视觉开发者
-
智能相册/云盘产品经理
-
安防与内容审核算法工程师
-
高校多模态研究组
六、优缺点介绍
-
优点
-
开源免费,商用友好(Apache 2.0)
-
零样本即可用,省去昂贵标注
-
模型小,端侧部署友好
-
-
缺点
-
对低清、侧脸、强光妆容变化敏感
-
不支持人脸活体检测,需额外防伪模块
-
长文本描述(> 77 token)会被截断,影响细粒度匹配
-
多模态学习、人脸识别、开源模型、图文检索、对比学习
MagicEdit明确地解开了外观和运动的学习,以实现高保真和时间连贯的视频编辑。它支持各种编辑应用程序,包括视频风格化、本地编辑、视频MagicMix 和视频绘制。