利用人臉識別技術標注u000B歷史照片的探討–以民國電影明星照片爲例

处理历史照片的最大挑战是辨析照片中的人物,由于年代的久远以及照相技术的限制,我们往往不知道历史照片上的人物到底是谁,大约是什么年代。这就大大降低了历史图片的研究价值。现在,随着机器学习及人工智能的成熟,利用人脸识别技术来对历史照片进行人物辩别成为了一种切实可行的解决方案。本文就以民国时期的电影明星照片为例,来讨论一下实施这个方案的技术路径以及可能遇到的问题。

背景:

在整理電影資料庫時遇到了大量的未被標注的民國電影明星照片和海報。如何提取這些照片中的人物信息來進行標注成爲一個難題。傳統的照片標注主要依賴專家的研究,隨著互聯網的興起,對照片機型標注的新方法不斷湧現,這些方法主要包括兩大類型,眾包和人臉辨識技術。

•利用人臉辨析技術來標注歷史照片可以追述到七八年前,當時有的圖書館藉助網絡照片管理系統提供的人臉識別功能來對照片中的人物進行標注,如Picasa等。但早期的嘗試受限于網絡平臺,準確率、實用性和使用效率都不高。

•隨著人臉辨析技術的成熟和廣汎運用,圖書館界不妨重新審視這項技術的可用性。通過對民國電影明星照片進行臉部特徵的提取辨析,可以看到人臉辨析技術可以有效地幫助識別電影明星照片和海報中的人物,從而實現對民國電影明星照片的元數據自動提取。

•基於人臉識別技術的民國電影照片標注方法的基本解決方案,是依賴圖書館現有的電影期刊館藏,通過電影刊物中刊登的明星照片來提取民國電影明星的臉部特徵,形成臉部數據庫作爲對照樣本,在利用人臉識別工具將待標注照片的臉部特徵與對照樣本進行比較,從而鑒別提取待標注照片中的人物信息

方案:


臉部特征庫結構

字段

類型

説明

FaceId

TEXT

臉部特徵標識

Name

TEXT

人名

Title

TEXT

題名

Source

TEXT

出處

Image

TEXT

樣本圖片位置

實現– 以徐来的照片为例:

(照片因考虑到版权限制,省略)

紅框内照片為對照樣本

Title:  徐来的生活:徐来也会拍照:[照片]

Source:  《明星家庭》

Publication Time:  1934

Volume Issue (Page):  [ 1期 ,1]

CLC Number:  K825.7


來源:上海圖書館《全國報刊索引》ChinesePeriodicals Full-text (1911-1949) 民国时期期刊全文数据库

辨析实例:



上图的图像来自民国时期的报纸,清晰度不高,下图的图像来自照片,清晰度较高。两组照片都能得到较为准确的结果,同时两两组图像的拍摄年龄也有很大的跨度。

讨论:

討論1.  樣本照片的選擇应该考虑以下因素:

表情; 角度; 清晰度; 年代

討論2. 雲端服務 vs. 開源軟件:目前采用AWS Rekognition作爲臉部檢索比較引擎, 其優點在於準確度高,API接口調用方便,系統穩定可靠,缺點是收費。開源方案可以采用OpenCV,有可用的模塊和數據,缺點是準確度比較低, 需要大規模訓練,優點是開源免費。


討論3. 服務模式:瀏覽器方式 vs. 本地客戶端模式, 瀏覽器模式服務範圍廣,本地模式宜於大規模處理。


討論4. 臉部辨識技術的法律、倫理及社會因素的限制。由於需要采集個人的臉部特徵,是否侵犯了個人隱私,這項技術本身是否具有技術局限,會導致一些爭議?目前我只采集了兩個已逝明星公開發表的臉部數據。


本篇文章来源于微信公众号:数字人文笔记

About the Author: DH