美國白宮Big Data report 筆記

responsible data forumNewsletter電子報裏(對於個人資料/大數據有興趣的朋友,強烈推薦訂閱,反正一個月也才二期)看到今年五月份美國白宮發佈了一份「Big Data: A Report on Algorithmic Systems,Opportunity, and Civil Rights」(大數據:演算法系統、機會與公民權利)的報告,感覺蠻有趣,有趣之處在於:居然是政府行政部門發佈了這樣一份報告。有關大數據與演算法涉及的歧視和偏見是近兩三年來才受到關切與討論的面向吧?但美國的行政部門,尤其還是總統的科技顧問居然發表了這樣一份「提醒」的報告,這實在不讓我不尤得好奇起來。2015年年初讀了一本熱門書談當今資訊社會中,主宰著支撐程式碼背後的演算法,當時讀來只覺得有趣:啊原來是應用了這些觀念和技術,好讓數位世界的運作得以飛馳前進,正當我們驚「豔」於演算法之強大,驚奇於臉書粉絲頁的婉君帶來白色力量的政治素人勢力興起,國際上網路社群參與與科技治理的討論則早已進入了更基進細緻的批判提醒(例如Global Conference on Cyberspace 2015會議上其中一場討論The Ethics of Algorithms 主題的背景資料)。後來看到開放社會基金會發了一則計畫申請公告:「Quantified Society: Examining the Consequences of Algorithmic Decision-Making for Open Societies」,歡迎大家來找碴,對於演算法統治世界主宰人群提出另類的反思,我才意識到原來以為幫忙電腦程式快速作業的演算法,其實背後有更嚴肅的社會課題亟待吾人正視。(OSF這個計畫申請專案後來勝出的提案請見這裏,蠻期待這些計畫後續的結果)。循著這一條線找下去,才知道有越來越多的社群在關心討論著操控大數據與演算法背後的是否涉某些個人價值立場的選擇、應用哪些演算方式本身能否被視為一種不可公開的商業機密黑盒子、有無可能透由外部的監督與問責讓黑箱透明化,當然更別提朂前端「收集、使用」個人資料與當事人資訊自決權之知情同意和目的正當合法等等..... 都成了當今科技與社會之間一門有趣的課題。
credit score algorithm

而之所以想來這份美國政府的報告記下一篇讀書筆記的摘要整理,一來是自己其實想討論/寫一篇這方面問題的念頭已久,二來是發現即使它是一篇具有「官方色彩」的文件,但其內容整理的要點和案例呈現架構比我之前讀到的材料(多半是深度型調查報導或是偏學術圈內自己人的討論)更為扼要切領。既然代表著某種美國行政部門(或是總統底下獨立專家提出的建議)立場,了解記下這篇文章自然有其必要。

這份報告另一個有意思的地方是其標題就直指「civil rights」公民權利,且不斷在文章中看到「discrimination」這個字眼。稍了解西方上世紀60年代風起雲湧的社會運動中,因民權組織的串連、最高法院的判決、草根民權運動中和平非暴力和黑豹黨人的武裝行動,種種力道促成了詹森總統任內國會通過了民權法案,其重點在於不論種族、膚色、性別、性傾向、出身背景,其就業、住房、教育、政治參與、經濟活動等皆有平等近用機會,免受不公平之歧視。當然執筆者也強調,他們在報告中所提及的「歧視」一辭未必是反了國家法律中所保障的平等機會權益,而是一種更為廣義、非刻意卻造成的除排排斥效果。

公正利用大數據以發揮其效力,並克服歧視偏見的挑戰,大約可分成二類:
1)放入資料本身的問題:決定要使用哪些資料數據本身可能就是導致歧視的源因,某些技術狀況和條件造成了的歧視性產出,包括
a)不良選取的資料:演算法與系統設計在在決定選擇資料數據時所判斷哪些是重要而放入,但其判斷不免有個人人為的影響或考慮的欠缺。所以最後產出的結果成了具有歧視、排除的效應。
b)不完整、不正確或是過時的資料數據
c)選擇時的偏頗:選取某一組數據資料並不能代表全部的母數,卻依其結果來推斷全體的狀況
d)不經意地繼續鼓勵著習以為常的偏頗

以上這些問題都是系統在設計服務提供時必須考量的地方,尤其是透明、問責與正當程序的重要以確保演算法的輸入數據是精準而合適的。

2)關於演算法本身內部工作流程的問題
黑盒子,消費者或受其結果影響的當事人往往不知道其決定作成的原因,也就欠缺可以偵察與找出其中的錯誤或預存偏頗的管道。這可能也表示某一群人完全地被排除在機會之門外。故再次重調:透明、問責與正當程序在使用大數據上的重要,否則可能會造成難以察覺又逐步擴大的缺陷。相關缺陷例如:
a)設計不佳的媒合系統
b)個人化的推薦服務反而限縮了用戶的選項
c)決策系統武斷推定了不正確的相關性假設並以此推論其結果
d)選取的數據組合欠缺或不符比例以代表某一群人口

為了實現「設計公平機會」的原則,程式開發員和數據科學者更必須進行「偏頗降低」的工具,透過一些方式、研究模型的使用來降低大數據處理上的偏頗。

接下報告則企圖從四大案例面向來討論其利用大數據,其能載舟亦能覆舟的雙刃----其可以帶來的社會進步生活改善機會,但同時也質疑其中是否會有反挫:數據選取與系統設計上的疏失(即前面1)、2)所提的挑戰隱憂),反而造成對於某些社群更為弱勢與不利的資源進用與競爭機會。我個人覺得報告在討論這幾可能受大數據影響而造成歧視的後果,寫得有點隔靴之感,只能稍泛泛地提到一些普遍性的隱憂。不過這似乎也是我目前看到對於大數據或演算法擔憂派仍然欠缺更實證堅固(以及更驚忪震憾人心)的論述論證,故在此就不細談這四大領域中利用大數據所帶來的潛在的機會與挑戰。
1)信用評價(財務借貸能力)
2)高等教育
3)求職
4)刑事犯罪正義:我個人對這方面的研究和討論較有興趣。之前看到的一篇是ProPubilica系列調查報導美國再犯率與危險性評估上種族因素所佔的扭曲性影響。還有最近看到data society institute 前研究員Angèle Christin從法國法庭與美國新聞編輯室的數據使用比較,都值得進一步再深追。

總體而言作為政府部門的立場,這份報告仍然保留了對於使用大數據可讓人類社會邁向進步的樂觀情緒,並在最後提出了五大方向的建議。
1)支持減少演算歧視的相關研究以建立系統性的公平與問責並發展出一套資料數據倫理架構。
2)鼓勵企業與消費者團體設計出最佳的演算體系,以修正不準確的數據與挑戰以演算所作出的決定。
3)促進學術研究與産業對於演算方式審計與外部測試系統,以確保人民被公正地對待。
4)擴大電腦與數據科學的參與,包括提高美國民眾相關的基礎能力與影響力。
5)考量政府與私部門,在設定資料數據使用規則上所扮演的角色。

反思與感想:你說呢?

0 意見:

My Instagram