Вештачката интелигенција може сама да научи да изневерува и лаже

Вештачката интелигенција може да научи да лаже и изневерува, а тоа е сериозен ризик кој бара регулаторни и законодавни мерки за да се осигура дека таа ќе остане корисна технологија, наместо да стане закана за човечкото знаење и институции, се вели во новото истражување.

Системите за вештачка интелигенција (ВИ), според студијата објавена во списанието Patterns, веќе научиле да мамат преку техники како што се манипулација, измама или мамење на безбедносни тестови, предупредија научниците од Технолошкиот институт во Масачусетс.

Брзиот развој на способностите на системите за вештачка интелигенција и големите јазични модели (LLM) претставува сериозен ризик, почнувајќи од краткорочни ризици и изборна измама, до самото губење на контролата врз овие системи, според истражувањето.

Научниците го наведоа системот Cicero AI на сопственикот на Фејсбук, концернот Мета, како пример за систем за вештачка интелигенција способен за манипулација.

Системот Цицеро во онлајн играта Дипломатија може да игра против луѓето, а научниците открија дека од Мета научил да стане „господар на измамата“, и покрај спротивното тврдење на компанијата.

Во играта, која симулира рамнотежа на силите за време на Првата светска војна и бара склучување сојузи, Цицерон, и покрај наводните инструкции да биде чесен и корисен за народот, „не само што бил предавник, туку и однапред ја испланирал измамата и склучување сојузи за да ги измами соиграчите да бидат неподготвени за напад“.

И моделот на вештачка интелигенција за играње покер Плурибус, исто така од концернот Мета, успешно ги блефираше своите соиграчи за да се покорат.

Еден од највпечатливите примери е сега веќе добро познатиот чат-бот со вештачка интелигенција chatGPT, од компанијата OpenaAI, кој измамил човечки соговорник да му реши безбедносна проверка, со која корисниците на една страница докажуваат дека не се ботови, т.н. – наречен Captcha.

ChatGPT добил задача од авторите на студијата да го убеди човекот да ја реши верификацијата наместо него, но не му било предложено да лаже. Кога соговорникот на четбот, не знаејќи за што зборува, го побарал неговиот идентитет, системот за вештачка интелигенција се претставил како лице со оштетен вид кој не може да ги види сликите на проверката на Captcha.

Примери за криење на вистинските намери се пронајдени и со системи за вештачка интелигенција создадени за водење економски преговори.

Исто така, системите за поддржано учење од човечки повратни информации (RLHF), што значи дека системот за вештачка интелигенција зависи од човечките повратни информации за време на машинското учење, научиле да лажат за нивната ефикасност и перформанси.

Авторите на студијата предупредија дека денешните системи за вештачка интелигенција и Големиот јазичен модел се способни за многу вешти аргументи и дека доколку почувствуваат потреба, прибегнуваат кон лаги и измами.

„Штом вештачката интелигенција ќе ја научи способноста да измами, злонамерните актери кои намерно сакаат да направат штета можат поефикасно да ја применат“, предупредија научниците од МИТ, додавајќи дека со помош на измама со вештачка интелигенција, тие можат да станат прилагодени на индивидуалните цели, масовност, но и оружје во политиката и во медиумите.

Истражувањето оценува и дека државите досега не презеле правилни мерки за да ја спречат оваа опасност, иако, како и во случајот со законот на ЕУ за вештачка интелигенција, почнале да го сфаќаат сериозно.