Teave

Uuringud näitavad, et Google'i vihakõne detektor on rassiliselt kallutatud

Uuringud näitavad, et Google'i vihakõne detektor on rassiliselt kallutatud

Vihakõne võib inimestele veebis luua mürgise keskkonna ja see on muutumas üha suuremaks probleemiks, nii et sotsiaalmeedia platvormidel on reageerimisele üha suurem surve.

Kuid isegi see võib olla probleem, kuna seda tüüpi sisu automaatne eemaldamine avab uksed potentsiaalselt rohkematele probleemidele, kuna see lahendus kipub juba marginaliseeritud hääli veelgi alla suruma. Lühidalt öeldes on protsess keeruline.

SEOTUD: SEE TEE TEAB TÄPSELT, KUI RASISTID JA SEKSID SAADA OLLA

Sellest hoolimata tegi Google 2016. aastal kõik endast oleneva, et luua tehisintellekti algoritm, mis oleks mõeldud vihakõne jälgimiseks ja ennetamiseks sotsiaalmeedia platvormidel ja veebisaitidel. Washingtoni ülikooli inimeste hiljuti läbi viidud uuringust selgus aga, et sama tööriist oli rassiliselt kallutatud; afroameeriklaste postitatud säutsude profileerimine.

Kallutatud vihakõne detektor

Nüüd mis tahes masinõppevahendi koolitamisel on oluline õige andmekogum ja Google'i vihakõne algoritm ei erinenud sellest. Ettevõtte arendajad koosnesid andmebaasist, mis hõlmas palju 100,000 säutsud, mille Google'i API nimetas perspektiivseks mürgiseks. See mürgine sisu muutus algoritmi juhitavaks valguseks, kasutades selleks, mida ta õppis, hea sisu ja kõige ebameeldiva, ebaviisaka või lugupidamatu märkimiseks ja märgistamiseks.

Washingtoni ülikooli paber leidis, et Google'i tööriista puhul oli mustanahaliste inimeste liputamine kahtlaselt kõrge, ehkki suurem osa säutsude keelest leiti olevat kahjulik.

Huvitav on see, et kui tööriista vastu testiti 5,4 miljonit säutsu nad leidsid, et tööriist oli kaks korda suurem tõenäosus, et see liputas ameerikaafriklaste kirjutatud postitusi. Näib, et Google'i tööriist võitles Aafrika-Ameerika rahvakeeles inglise keeles kirjutatud säutsudega.

Õigete andmete valimine

Nagu eespool öeldud, on õiged andmed väga olulised. See on veelgi olulisem piirkondades, kus võidusõit osaleb. Google'i algoritmi üldine probleem on see, et Aafrika-Ameerika rahvakeelse inglise keele õigeks tuvastamiseks puudus asjakohane arusaam ja kultuuriteadlikkus. Lühidalt, AAE-d ei viidud andmekogumisse õigesti, mis omakorda tõi kaasa kallutatuse.

Lahendus? Nagu raportis öeldi: "Tutvustasime murret ja võistluste alustamist - kahte viisi annotatorite eelarvamuste vähendamiseks, tuues andmete annotatsioonis esile säutsu murd ja näidates, et see vähendab märkimisväärselt tõenäosust, et AAE säutsud märgitakse solvavaks."

Washingtoni ülikooli meeskond on seisukohal, et erilist tähelepanu tuleks pöörata murde segasele mõjule, et vältida tahtmatut rassilist eelarvamust vihakõne tuvastamisel.


Vaata videot: What is ASCII? (Mai 2021).