使用機器學(xué)習(xí)從匿名手機數(shù)據(jù)中提取個人信息
諾伊理工學(xué)院的一個研究小組使用機器學(xué)習(xí)和人工智能算法從匿名手機數(shù)據(jù)中提取了個人信息,特別是受保護的年齡和性別等特征,引發(fā)了有關(guān)數(shù)據(jù)安全的問題。
該研究由諾伊理工大學(xué)三位教授組成的跨學(xué)科團隊進行,其中包括計算機科學(xué)研究副教授VijayK.Gurbani;馬修·夏皮羅,政治學(xué)教授;和社會科學(xué)副教授YuriMansury。諾伊理工大學(xué)校友LidaKuang(MSCS'19)和SamrudaPobbathi(MSCS'19)加入了他們的行列,他們與Gurbani一起在PLOSOne中發(fā)表了“通過網(wǎng)絡(luò)遙測預(yù)測年齡和性別:對隱私的影響和對政策的影響”.
研究人員使用來自拉丁美洲一家手機公司的數(shù)據(jù),通過他們的私人通信,相對輕松地成功地估計了個人用戶的性別和年齡。
該團隊開發(fā)了一個神經(jīng)網(wǎng)絡(luò)模型,以67%的準(zhǔn)確率估計性別,其性能明顯優(yōu)于決策樹、隨機森林和梯度提升模型等現(xiàn)代技術(shù)。他們還能夠使用相同的模型以78%的準(zhǔn)確率估計單個用戶的年齡。
“年齡和性別信息似乎確實無害,但人們以邪惡的方式使用這些信息,很多時候會帶來毀滅性的后果,”夏皮羅說。
“當(dāng)有惡意的人針對幼兒進行任何事情時,從銷售到性掠奪,這違反了許多旨在保護未成年人的法律,例如《兒童在線隱私保》和HIPAA。在年齡范圍的另一端,鑒于老年人的易感性和獲得儲蓄的機會,他們成為復(fù)雜的垃圾郵件和網(wǎng)絡(luò)釣魚攻擊的目標(biāo)。”
這些信息是使用常用的計算設(shè)備推斷出來的。該團隊使用具有16GB內(nèi)存的Linux(Fedora)操作系統(tǒng)和具有四個內(nèi)核的Inteli5-6200UCPU來運行神經(jīng)網(wǎng)絡(luò)模型。
“我們用于這項工作的筆記本電腦根本不是獨家的,”古爾巴尼說。“對于資源充足的對手來說,將有更強大的機器可用,包括訪問集群計算,其中多臺計算機配置在一個集群中,為AI/ML模型提供計算能力。”
用于進行研究的數(shù)據(jù)集尚未公開,但Gurbani表示,對手可以通過公共Wi-Fi熱點捕獲數(shù)據(jù)或攻擊服務(wù)提供商的計算基礎(chǔ)設(shè)施來收集類似的數(shù)據(jù)集。
“正如我們在論文中提到的那樣,不幸的是,此類攻擊確實發(fā)生了,而且并不罕見,”古爾巴尼說。“收集這些數(shù)據(jù)的過程并不容易,但也并非不可能。”
這篇論文的目的是開啟一場對話,批判性地審視新興機器學(xué)習(xí)和人工智能技術(shù)對隱私法規(guī)的影響。美國沒有全國性的隱私法規(guī),因此研究人員研究了這些技術(shù)如何削弱歐盟的通用數(shù)據(jù)保護條例文章,這些文章旨在保護消費者免受迫在眉睫的隱私侵犯威脅。
Gurbani說:“機器學(xué)習(xí)和自動化決策將成為業(yè)務(wù)流程的主流,這是無法逃避的現(xiàn)實。”“當(dāng)前的問題是如何使用適當(dāng)?shù)谋O(jiān)管框架保護個人隱私以及社會和經(jīng)濟利益免受欺詐。”
Mansury說,做到這一點的一種方法是為消費者提供“選擇退出選項”,以便在安裝應(yīng)用程序時保持其個人信息的私密性。
建議包括對機器學(xué)習(xí)模型使用合成數(shù)據(jù)而不是用戶觀察,讓數(shù)據(jù)持有者與機器學(xué)習(xí)專家合作開發(fā)最佳實踐,建立一個允許用戶選擇退出數(shù)據(jù)共享以保護個人信息隱私的監(jiān)管框架,以及更新現(xiàn)有的不合規(guī)協(xié)議。換句話說,要解決政策差距以及人工智能的倫理問題,還有很多工作要做。
標(biāo)簽: