Безпека штучного інтелекту — це міждисциплінарна галузь, пов'язана із запобіганням нещасних випадків, неправильному використанню чи іншим шкідливим наслідкам, до яких можуть призвести системи штучного інтелекту (ШІ). Він охоплює машинну етику та [en], які мають на меті зробити системи штучного інтелекту моральними та корисними, а безпека штучного інтелекту охоплює технічні проблеми, зокрема системи моніторингу ризиків і підвищення їх надійності. Окрім досліджень штучного інтелекту, це передбачає розробку норм і політики, які сприяють безпеці.
Мотивації
Дослідники штучного інтелекту мають дуже різні думки щодо серйозності та основних джерел ризику, пов'язаного з технологією штучного інтелекту, хоча опитування свідчать про те, що експерти серйозно ставляться до високих ризиків наслідків. У двох опитуваннях дослідників штучного інтелекту середній респондент був оптимістично налаштований щодо штучного інтелекту в цілому, але поставив 5 % ймовірність «надзвичайно поганого (наприклад, вимирання людини)» результату передового штучного інтелекту. У 2022 році в опитуванні спільноти обробки природної мови (NLP) 37 % погодилися або не погодилися з тим, що рішення штучного інтелекту можуть призвести до катастрофи, «щонайменше такої ж поганої, як повна ядерна війна». Науковці обговорюють поточні ризики від збоїв критичних систем, упередженості та стеження за допомогою ШІ; нові ризики, пов'язані з технологічним безробіттям, цифровими маніпуляціями та використанням зброї; та спекулятивні ризики від втрати контролю над майбутніми агентами штучного загального інтелекту (AGI).
Деякі критикували занепокоєння щодо AGI, наприклад Ендрю Нґ, який у 2015 році порівняв їх із «занепокоєнням про перенаселення Марса, коли ми ще навіть не ступили на планету». З іншого боку, Стюарт Дж. Рассел закликає бути обережними, стверджуючи, що «людську винахідливість краще передбачити, ніж недооцінювати».
Тло
Ризики штучного інтелекту почали серйозно обговорювати на початку комп'ютерної ери:
Більше того, якщо ми рухаємося в напрямку створення машин, які навчаються і чия поведінка змінюється під впливом досвіду, ми повинні визнати той факт, що кожна ступінь незалежності, яку ми надаємо машині, є ступенем можливого ігнорування наших бажань. Оригінальний текст (англ.) Moreover, if we move in the direction of making machines which learn and whose behavior is modified by experience, we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes. | ||
— Норберт Вінер (1949) |
З 2008 по 2009 рік Асоціація розвитку штучного інтелекту (AAAI) замовила дослідження, щоб вивчити й розглянути потенційний довгостроковий суспільний вплив досліджень і розробок ШІ. Комісія загалом скептично поставилася до радикальних поглядів, висловлених авторами наукової фантастики, але погодилася, що «додаткове дослідження було б цінним щодо методів розуміння та перевірки діапазону поведінки складних обчислювальних систем для мінімізації неочікуваних результатів».
У 2011 році Роман Ямпольський ввів термін «техніка безпеки штучного інтелекту» на конференції з філософії та теорії штучного інтелекту, перерахувавши попередні збої систем штучного інтелекту та стверджуючи, що «частота та серйозність таких подій невпинно зростатиме, оскільки ШІ стає більш здібним».
У 2014 році філософ Нік Бостром опублікував книгу «Суперінтелект: шляхи, небезпеки, стратегії». Він вважає, що зростання AGI потенційно може створити різні суспільні проблеми, починаючи від витіснення робочої сили штучним інтелектом, маніпуляцій політичними та військовими структурами, навіть до можливості вимирання людства. Його аргумент про те, що майбутні передові системи можуть становити загрозу існуванню людства, спонукав Ілона Маска, Білла Гейтса і Стівена Гокінга висловили подібні занепокоєння.
У 2015 році десятки експертів зі штучного інтелекту підписали відкритий лист щодо штучного інтелекту, у якому закликали до дослідження впливу штучного інтелекту на суспільство та окреслили конкретні напрямки. На сьогоднішній день лист підписали понад 8000 людей, включаючи Янна Лекуна, Шейна Легга, Йошуа Бенгіо та Стюарта Рассела.
У тому ж році група вчених під керівництвом професора Стюарта Рассела заснувала Центр сумісного з людиною штучного інтелекту в Каліфорнійському університеті Берклі, а Інститут майбутнього життя виділив гранти в розмірі 6,5 мільйонів доларів на дослідження, спрямовані на «забезпечення штучного інтелекту (ШІ)». залишається безпечним, етичним і корисним".
У 2016 році Управління наукової та технологічної політики Білого дому та Університет Карнегі-Меллона оголосили Громадський семінар з безпеки та контролю за штучним інтелектом, який був одним із чотирьох семінарів Білого дому, спрямованих на дослідження «переваг і недоліків» ШІ. У тому ж році було опубліковано Concrete Problems in AI Safety — один із перших і найвпливовіших технічних планів безпеки AI.
У 2017 році Інститут майбутнього життя спонсорував Asilomar Conference on Beneficial AI, де понад 100 лідерів думок сформулювали принципи для корисного AI, зокрема «Уникнення перегонів: команди, які розробляють системи AI, повинні активно співпрацювати, щоб уникнути порушення стандартів безпеки».
У 2018 році команда DeepMind Safety окреслила проблеми безпеки штучного інтелекту в специфікаціях, надійності та надійності. Наступного року дослідники організували в ICLR семінар, присвячений цим проблемним сферам.
У 2021 році було опубліковано Unsolved Problems in ML Safety, в якому окреслено напрями досліджень у сфері надійності, моніторингу, узгодження та системної безпеки.
У 2023 році Ріші Сунак заявив, що хоче, щоб Сполучене Королівство стало «географічним домом для глобального регулювання безпеки штучного інтелекту» та прийняло перший глобальний саміт з безпеки ШІ.
Фокус дослідження
Сфери досліджень безпеки ШІ включають надійність, моніторинг і вирівнювання.
Міцність
Змагальна міцність
Системи штучного інтелекту часто вразливі до суперечливих прикладів або «вхідних даних до моделей машинного навчання (ML), які зловмисник навмисно створив, щоб змусити модель зробити помилку». Наприклад, у 2013 році Szegedy et al. виявив, що додавання певних непомітних збурень до зображення може призвести до його неправильної класифікації з високою достовірністю. Це продовжує залишатися проблемою для нейронних мереж, хоча в останніх роботах збурення, як правило, досить великі, щоб їх можна було відчути.
Передбачається, що всі зображення праворуч будуть страусами після застосування пертурбації. (Ліворуч) — правильно передбачений зразок, (у центрі) застосоване збурення, збільшене в 10 разів, (праворуч) змагальний приклад.
Стійкість змагання часто асоціюється з безпекою. Дослідники продемонстрували, що аудіосигнал можна непомітно модифікувати, щоб системи перетворення мови в текст транскрибували його в будь-яке повідомлення, яке вибере зловмисник. Системи виявлення мережевих вторгнень і зловмисного програмного забезпечення також повинні бути стійкими до змагань, оскільки зловмисники можуть планувати свої атаки, щоб обдурити детектори.
Моделі, які представляють цілі (моделі винагороди), також повинні бути стійкими до змагальності. Наприклад, модель винагороди може оцінити, наскільки корисною є текстова відповідь, а мовну модель можна навчити, щоб максимізувати цей бал. Дослідники показали, що якщо мовну модель тренувати достатньо довго, вона використовуватиме вразливі місця моделі винагороди, щоб отримати кращий результат і гірше виконувати заплановане завдання. Цю проблему можна вирішити, покращивши конкурентоспроможність моделі винагороди. Загалом, будь-яка система ШІ, яка використовується для оцінки іншої системи ШІ, має бути стійкою до змагань. Це може включати інструменти моніторингу, оскільки вони також потенційно можуть бути підроблені для отримання більшої винагороди.
Моніторинг
Оцінка невизначеності
Для людей-операторів часто важливо оцінити, наскільки вони повинні довіряти системі штучного інтелекту, особливо в таких серйозних ситуаціях, як медична діагностика. Моделі ML зазвичай виражають впевненість шляхом виведення ймовірностей; однак вони часто надто самовпевнені, особливо в ситуаціях, які відрізняються від тих, з якими їх навчили вирішувати. Дослідження калібрування спрямоване на те, щоб імовірності моделі якомога точніше відповідали справжньому співвідношенню правильності моделі.
Подібним чином виявлення аномалій або виявлення нерозповсюдження (OOD) має на меті визначити, коли система ШІ знаходиться в незвичній ситуації. Наприклад, якщо датчик на автономному транспортному засобі несправний або він натрапляє на складну місцевість, він повинен попередити водія про необхідність взяти керування або зупинитися. Виявлення аномалій було реалізовано шляхом простого навчання класифікатора розрізняти аномальні та неаномальні вхідні дані, хоча використовується низка додаткових методів.
Виявлення шкідливого використання
Вчені та державні установи висловлюють занепокоєння, що системи штучного інтелекту можуть використовуватися, щоб допомогти зловмисникам створювати зброю, маніпулювати громадською думкою або автоматизувати кібератаки. Ці занепокоєння викликають практичне занепокоєння для таких компаній, як OpenAI, які розміщують потужні інструменти штучного інтелекту онлайн. Щоб запобігти зловживанням, OpenAI створив системи виявлення, які позначають або обмежують користувачів на основі їх активності.
Прозорість
Нейронні мережі часто описують як чорні ящики, що означає, що важко зрозуміти, чому вони приймають рішення, які вони приймають, у результаті величезної кількості обчислень, які вони виконують. Через це складно передбачити невдачі. У 2018 році безпілотний автомобіль збив на смерть пішохода, не впізнавши його. Через природу програмного забезпечення штучного інтелекту як чорного ящика причина збою залишається незрозумілою.
Однією з найважливіших переваг прозорості є можливість пояснення. Іноді юридична вимога надати пояснення, чому було прийнято рішення, щоб забезпечити справедливість, наприклад, для автоматичного фільтрування заявок на прийом на роботу або визначення кредитного рейтингу.
Ще одна перевага полягає в тому, щоб виявити причину невдач. На початку пандемії COVID-19 2020 року дослідники використовували інструменти прозорості, щоб показати, що класифікатори медичних зображень «звертали увагу» на нерелевантні мітки лікарень.
Методи прозорості також можна використовувати для виправлення помилок. Наприклад, у статті «Розташування та редагування фактичних асоціацій у GPT» автори змогли визначити параметри моделі, які вплинули на те, як вона відповідає на запитання про розташування Ейфелевої вежі. Потім вони змогли «відредагувати» ці знання, щоб змусити модель відповідати на запитання так, ніби вона вважала, що вежа знаходиться в Римі, а не у Франції. Хоча в цьому випадку автори викликали помилку, ці методи потенційно можуть бути використані для ефективного їх виправлення. Техніка редагування моделі також існує в комп'ютерному зорі.
Нарешті, деякі стверджують, що непрозорість систем штучного інтелекту є значним джерелом ризику, і краще розуміння того, як вони функціонують, може запобігти серйозним збоям у майбутньому. Дослідження «внутрішньої» інтерпретації спрямовані на те, щоб зробити моделі машинного навчання менш непрозорими. Однією з цілей цього дослідження є визначення того, що представляють активації внутрішніх нейронів. Наприклад, дослідники ідентифікували нейрон у системі штучного інтелекту CLIP, який реагує на зображення людей у костюмах людини-павука, ескізи людини-павука та слово «павук». Це також передбачає пояснення зв'язків між цими нейронами або «ланцюгами». Наприклад, дослідники виявили механізми зіставлення шаблонів у трансформаторній увазі, які можуть відігравати роль у тому, як мовні моделі вивчають свій контекст. «Внутрішню інтерпретативність» порівнюють із нейронаукою. В обох випадках мета полягає в тому, щоб зрозуміти, що відбувається в складній системі, хоча дослідники ML мають перевагу в тому, що вони можуть проводити ідеальні вимірювання та виконувати довільні абляції.
Виявлення троянів
Моделі ML потенційно можуть містити «трояни» або «бекдори»: уразливості, які зловмисники зловмисно вбудовують у систему ШІ. Наприклад, троянська система розпізнавання обличчя може надати доступ, коли в полі зору певний ювелірний виріб; або троянський автономний транспортний засіб може функціонувати нормально, доки не буде видно конкретний тригер. Зауважте, що зловмисник повинен мати доступ до навчальних даних системи, щоб встановити троян. Це може бути неважко зробити з деякими великими моделями, такими як CLIP або GPT-3, оскільки вони навчаються на загальнодоступних даних в Інтернеті. Дослідники змогли підсадити троян до класифікатора зображень, змінивши лише 300 із 3 мільйонів навчальних зображень. Крім загрози безпеці, дослідники стверджують, що трояни забезпечують конкретне налаштування для тестування та розробки кращих інструментів моніторингу.
Зазвичай ризики штучного інтелекту (і технологічні ризики в цілому) класифікують як неправильне використання або нещасні випадки. Деякі вчені припускають, що ця структура не відповідає вимогам. Наприклад, кубинська ракетна криза не була однозначно нещасним випадком чи неправильним використанням технологій. Політичні аналітики Цветслот і Дефо написали: «Перспективи неправильного використання та нещасних випадків, як правило, зосереджуються лише на останньому етапі причинно-наслідкового ланцюга, що призводить до шкоди: тобто особа, яка неправильно використала технологію, або система, яка поводилася ненавмисно… Однак часто відповідний причинно-наслідковий ланцюг набагато довший». Ризики часто виникають через «структурні» або «системні» фактори, такі як конкурентний тиск, розповсюдження шкоди, швидкий розвиток, високий рівень невизначеності та недостатня культура безпеки. У ширшому контексті техніки безпеки структурні фактори, такі як «організаційна культура безпеки», відіграють центральну роль у популярній системі аналізу ризиків STAMP.
Натхненні структурною перспективою, деякі дослідники підкреслили важливість використання машинного навчання для покращення соціально-технічних факторів безпеки, наприклад, використання машинного навчання для кіберзахисту, покращення інституційного прийняття рішень і сприяння співпраці.
Кіберзахист
Деякі вчені стурбовані тим, що штучний інтелект загострить і без того незбалансовану гру між кібер-зловмисниками та кібер-захисниками. Це посилить стимули до «першого удару» та може призвести до більш агресивних та дестабілізуючих атак. Щоб зменшити цей ризик, деякі виступають за посилення уваги до кіберзахисту. Крім того, безпека програмного забезпечення має важливе значення для запобігання крадіжці та неправильному використанню потужних моделей ШІ.
Удосконалення інституційного прийняття рішень
Розвиток штучного інтелекту в економічній і військовій сферах може спричинити безпрецедентні політичні виклики. Деякі вчені порівнюють динаміку гонки штучного інтелекту з холодною війною, коли ретельне судження невеликої кількості осіб, які приймають рішення, часто вказувало на різницю між стабільністю та катастрофою. Дослідники штучного інтелекту стверджують, що технології штучного інтелекту також можна використовувати для сприяння прийняттю рішень. Наприклад, дослідники починають розробляти системи прогнозування ШІ та консультаційні системи.
Сприяння співпраці
Багато найбільших глобальних загроз (ядерна війна, зміна клімату тощо) були представлені як виклики співпраці. Як і у добре відомому сценарії дилеми в'язня, певна динаміка може призвести до поганих результатів для всіх гравців, навіть якщо вони оптимально діють у власних інтересах. Наприклад, жодна окрема сторона не має сильних стимулів для вирішення проблеми зміни клімату, навіть якщо наслідки можуть бути значними, якщо ніхто не втрутиться.
Основна проблема співпраці зі штучним інтелектом полягає в уникненні «гонки на дно». У цьому сценарії країни чи компанії намагаються створити більш потужні системи ШІ та нехтують безпекою, що призводить до катастрофічної аварії, яка завдає шкоди всім учасникам. Занепокоєння щодо подібних сценаріїв надихнуло як політичні, так і технічні зусилля, спрямовані на сприяння співпраці між людьми та, можливо, також між системами ШІ. Більшість досліджень штучного інтелекту зосереджено на розробці окремих агентів для виконання ізольованих функцій (часто в «одиночних» іграх). Вчені припустили, що коли системи штучного інтелекту стають більш автономними, може стати важливим вивчення та формування способу їх взаємодії.
В урядуванні
Управління штучним інтелектом широко стосується створення норм, стандартів і правил, які б керували використанням і розвитком систем штучного інтелекту.
Дослідження
Дослідження управління безпекою штучного інтелекту варіюються від фундаментальних досліджень потенційного впливу ШІ до конкретних програм. Щодо основи, дослідники стверджують, що штучний інтелект може змінити багато аспектів суспільства завдяки його широкому застосуванню, порівнюючи його з електрикою та паровою машиною. Деяка робота була зосереджена на передбаченні конкретних ризиків, які можуть виникнути внаслідок цих впливів — наприклад, ризики від масового безробіття, використання зброї, дезінформації, стеження та концентрації влади. Інша робота досліджує основні фактори ризику, такі як складність моніторингу індустрії штучного інтелекту, що швидко розвивається, доступність моделей штучного інтелекту та динаміку «гонки до дна». Аллан Дефо, голова відділу довгострокового управління та стратегії DeepMind, підкреслив небезпеку перегонів і потенційну потребу у співпраці: «це може бути майже необхідною та достатньою умовою для безпеки та узгодження штучного інтелекту, щоб перед тим був високий ступінь обережності. до розгортання передових потужних систем; однак, якщо учасники конкурують у сфері з великою віддачею для тих, хто йде першими, або відносною перевагою, тоді вони будуть вимушені вибирати неоптимальний рівень обережності».
Дії уряду
Деякі експерти стверджують, що ще занадто рано регулювати штучний інтелект, висловлюючи занепокоєння тим, що регулювання перешкоджатиме інноваціям, і було б нерозумно «поспішати з регулюванням через незнання». Інші, такі як бізнес-магнат Ілон Маск, закликають до превентивних дій для пом'якшення катастрофічних ризиків.
Окрім офіційного законодавства, державні установи висунули етичні рекомендації та рекомендації щодо безпеки. У березні 2021 року Комісія національної безпеки США зі штучного інтелекту повідомила, що прогрес у ШІ може зробити все більш важливим "забезпечення того, щоб системи відповідали цілям і цінностям, включаючи безпеку, надійність і надійність. Згодом Національний інститут стандартів і технологій розробив структуру для управління ризиками штучного інтелекту, яка радить, що коли «присутні катастрофічні ризики — розробку та розгортання слід припинити безпечним способом, доки ризиками не можна буде належним чином керувати».
У вересні 2021 року Китайська Народна Республіка опублікувала етичні рекомендації щодо використання штучного інтелекту в Китаї, наголошуючи на тому, що рішення щодо штучного інтелекту повинні залишатися під контролем людини, і закликаючи до механізмів підзвітності. У тому ж місяці Сполучене Королівство опублікувало свою 10-річну національну стратегію штучного інтелекту, в якій зазначено, що британський уряд «бере на себе довгостроковий ризик позаблокового загального штучного інтелекту та непередбачуваних змін, які це означатиме для. .. світ, серйозно». Стратегія описує дії для оцінки довгострокових ризиків ШІ, включаючи катастрофічні ризики. Британський уряд оголосив про плани щодо першого великого глобального саміту з безпеки ШІ. Це має відбутися 1 і 2 листопада 2023 року, і це «можливість для політиків і світових лідерів розглянути безпосередні та майбутні ризики ШІ та те, як ці ризики можна пом'якшити за допомогою глобально скоординованого підходу».
Урядові організації, зокрема в Сполучених Штатах, також заохочують розвиток технічних досліджень безпеки ШІ. Діяльність передових дослідницьких проектів Intelligence ініціювала проект TrojAI для виявлення та захисту від атак троянських програм на системи ШІ. DARPA бере участь у дослідженні зрозумілого штучного інтелекту та покращення стійкості проти агресивних атак. А Національний науковий фонд підтримує Центр надійного машинного навчання та надає мільйони доларів на емпіричні дослідження безпеки ШІ.
Корпоративне саморегулювання
Лабораторії штучного інтелекту та компанії зазвичай дотримуються правил безпеки та норм, які виходять за рамки офіційного законодавства. Однією з цілей дослідників управління є формування цих норм. Приклади рекомендацій щодо безпеки, знайдені в літературі, включають проведення аудиту третьої сторони, пропозицію премії за виявлення збоїв, обмін інцидентами ШІ (для цієї мети була створена база даних інцидентів ШІ), дотримання вказівок. щоб визначити, чи варто публікувати дослідження чи моделі, і покращення інформаційної та кібербезпеки в лабораторіях ШІ.
Компанії також взяли на себе зобов'язання. Cohere, OpenAI та AI21 запропонували та узгодили «найкращі методи розгортання мовних моделей», зосереджуючись на пом'якшенні зловживання. Щоб уникнути внеску в динаміку перегонів, OpenAI також зазначив у своєму статуті, що «якщо проект, орієнтований на цінності та безпеку, наблизиться до створення AGI раніше, ніж ми, ми зобов'язуємося припинити конкурувати з цим проектом і почати допомагати йому» Крім того, такі лідери галузі, як генеральний директор DeepMind Деміс Хассабіс, директор Facebook AI Yann LeCun, підписали такі відкриті листи, як Принципи Асіломара. та Відкритий лист щодо автономної зброї.
Примітки
- 'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power. Fortune (англ.). Процитовано 10 червня 2023.
- Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 липня 2018). Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research. 62: 729—754. doi:10.1613/jair.1.11222. ISSN 1076-9757. оригіналу за 10 лютого 2023. Процитовано 28 листопада 2022.
- Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 травня 2021). Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. arXiv:2105.02117.
- Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 серпня 2022). 2022 Expert Survey on Progress in AI. AI Impacts. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Michael, Julian; ; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (26 серпня 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey. arXiv:2208.12852.
- Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). A Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys (англ.). 54 (6): 1—35. arXiv:1908.09635. doi:10.1145/3457607. ISSN 0360-0300. оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.
- Barnes, Beth (2021). Risks from AI persuasion. Lesswrong. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas (30 квітня 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.
- Carlsmith, Joseph (16 червня 2022). Is Power-Seeking AI an Existential Risk?. arXiv:2206.13353.
- AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com (амер.). 4 квітня 2023. Процитовано 23 липня 2023.
- Dafoe, Allan (2016). Yes, We Are Worried About the Existential Risk of Artificial Intelligence. MIT Technology Review. оригіналу за 28 листопада 2022. Процитовано 28 листопада 2022.
- Markoff, John (20 травня 2013). In 1949, He Imagined an Age of Robots. The New York Times. ISSN 0362-4331. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Association for the Advancement of Artificial Intelligence. AAAI Presidential Panel on Long-Term AI Futures. оригіналу за 1 вересня 2022. Процитовано 23 листопада 2022.
- Yampolskiy, Roman V.; Spellchecker, M. S. (25 жовтня 2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. arXiv:1610.07997.
- PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011). оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Yampolskiy, Roman V. (2013), Müller, Vincent C. (ред.), Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin; Heidelberg, Germany: Springer Berlin Heidelberg, 5: 389—396, doi:10.1007/978-3-642-31674-6_29, ISBN , оригіналу за 15 березня 2023, процитовано 23 листопада 2022
- McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 липня 2023). The risks associated with Artificial General Intelligence: A systematic review. Journal of Experimental & Theoretical Artificial Intelligence (англ.). 35 (5): 649—663. Bibcode:2023JETAI..35..649M. doi:10.1080/0952813X.2021.1964003. ISSN 0952-813X.
- Kuo, Kaiser (31 березня 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Подія сталася на 55:49. Процитовано 23 листопада 2022.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () - Cellan-Jones, Rory (2 грудня 2014). Stephen Hawking warns artificial intelligence could end mankind. BBC News. оригіналу за 30 жовтня 2015. Процитовано 23 листопада 2022.
- Future of Life Institute. Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter. Future of Life Institute. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Future of Life Institute. AI Research Grants Program. Future of Life Institute. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- SafArtInt 2016. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Bach, Deborah (2016). UW to host first of four White House public workshops on artificial intelligence. UW News. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 липня 2016). Concrete Problems in AI Safety. arXiv:1606.06565.
- Future of Life Institute. AI Principles. Future of Life Institute. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Research, DeepMind Safety (27 вересня 2018). Building safe artificial intelligence: specification, robustness, and assurance. Medium. оригіналу за 10 лютого 2023. Процитовано 23 листопада 2022.
- SafeML ICLR 2019 Workshop. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 червня 2022). Unsolved Problems in ML Safety. arXiv:2109.13916.
- Browne, Ryan (12 червня 2023). British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley. CNBC (англ.). Процитовано 25 червня 2023.
- Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 лютого 2017). Attacking Machine Learning with Adversarial Examples. OpenAI. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 лютого 2014). Intriguing properties of neural networks. arXiv:1312.6199.
- Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 лютого 2017). Adversarial examples in the physical world. arXiv:1607.02533.
- Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 вересня 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083.
- Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 березня 2018). Adversarial Logit Pairing. arXiv:1803.06373.
- Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 липня 2018). Motivating the Rules of the Game for Adversarial Example Research. arXiv:1807.06732.
- Carlini, Nicholas; Wagner, David (29 березня 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944.
- Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 вересня 2022). Adversarial Examples in Constrained Domains. arXiv:2011.01183.
- Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 квітня 2019). Exploring Adversarial Examples in Malware Detection. arXiv:1810.08280.
- Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (4 березня 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.
- Gao, Leo; Schulman, John; Hilton, Jacob (19 жовтня 2022). Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760.
- Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 жовтня 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization. arXiv:2110.14188.
- Hendrycks, Dan; Mazeika, Mantas (20 вересня 2022). X-Risk Analysis for AI Research. arXiv:2206.05862.
- Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). Deep learning in cancer diagnosis, prognosis and treatment selection. Genome Medicine (англ.). 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474. PMID 34579788.
- Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 грудня 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. arXiv:1906.02530.
- Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). Description of Corner Cases in Automated Driving: Goals and Challenges. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). с. 1023—1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN .
- Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 січня 2019). Deep Anomaly Detection with Outlier Exposure. arXiv:1812.04606.
- Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 березня 2022). ViM: Out-Of-Distribution with Virtual-logit Matching. arXiv:2203.10807.
- Hendrycks, Dan; Gimpel, Kevin (3 жовтня 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. arXiv:1610.02136.
- Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). Dual use of artificial-intelligence-powered drug discovery. Nature Machine Intelligence (англ.). 4 (3): 189—191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280. PMID 36211133.
- Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation. doi:10.51593/2021ca003. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Propaganda-as-a-service may be on the horizon if large language models are abused. VentureBeat. 14 грудня 2021. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). Automating Cyber Attacks: Hype and Reality. doi:10.51593/2020ca002. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Lessons Learned on Language Model Safety and Misuse. OpenAI. 3 березня 2022. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 серпня 2022). New-and-Improved Content Moderation Tooling. OpenAI. оригіналу за 11 січня 2023. Процитовано 24 листопада 2022.
- Savage, Neil (29 березня 2022). Breaking into the black box of artificial intelligence. Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). Key Concepts in AI Safety: Interpretability in Machine Learning. doi:10.51593/20190042. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- McFarland, Matt (19 березня 2018). Uber pulls self-driving cars after first fatal crash of autonomous vehicle. CNNMoney. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (20 грудня 2019). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134.
- Fong, Ruth; Vedaldi, Andrea (2017). Interpretable Explanations of Black Boxes by Meaningful Perturbation. 2017 IEEE International Conference on Computer Vision (ICCV). с. 3449—3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN .
- Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems. 35. arXiv:2202.05262.
- Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 липня 2020). Rewriting a Deep Generative Model. arXiv:2007.15646.
- Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 вересня 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. arXiv:2207.13243.
- Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 квітня 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations. arXiv:1704.05796.
- McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 листопада 2022). Acquisition of chess knowledge in AlphaZero. Proceedings of the National Academy of Sciences (англ.). 119 (47): e2206625119. arXiv:2111.09259. Bibcode:2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706. PMID 36375061.
- Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). Multimodal neurons in artificial neural networks. Distill. 6 (3). doi:10.23915/distill.00030.
- Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). Zoom in: An introduction to circuits. Distill. 5 (3). doi:10.23915/distill.00024.001.
- Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). Curve circuits. Distill. 6 (1). doi:10.23915/distill.00024.006. оригіналу за 5 December 2022. Процитовано 5 December 2022.
- Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao (2022). In-context learning and induction heads. Transformer Circuits Thread. arXiv:2209.11895.
- Olah, Christopher. Interpretability vs Neuroscience [rough note]. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 березня 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733.
- Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 грудня 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526.
- Carlini, Nicholas; Terzis, Andreas (28 березня 2022). Poisoning and Backdooring Contrastive Learning. arXiv:2106.09667.
- Zwetsloot, Remco; Dafoe, Allan (11 лютого 2019). Thinking About Risks From AI: Accidents, Misuse and Structure. Lawfare. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). Systems theoretic accident model and process (STAMP): A literature review. Safety Science (англ.). 152: 105596. doi:10.1016/j.ssci.2021.105596. оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
- Center for Security and Emerging Technology; Hoffman, Wyatt (2021). AI and the Future of Cyber Competition. doi:10.51593/2020ca007. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. doi:10.51593/20190051. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Future of Life Institute (27 березня 2019). AI Strategy, Policy, and Governance (Allan Dafoe). Подія сталася на 22:05. оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
- Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain (9 жовтня 2022). Forecasting Future World Events with Neural Networks. arXiv:2206.15474.
- Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 лютого 2022). Augmenting Decision Making via Interactive What-If Analysis. arXiv:2109.06160.
- Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (ред.), Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (англ.), The Hague: T.M.C. Asser Press: 421—436, doi:10.1007/978-94-6265-419-8_22, ISBN , оригіналу за 15 березня 2023, процитовано 24 листопада 2022
- Newkirk II, Vann R. (21 квітня 2016). Is Climate Change a Prisoner's Dilemma or a Stag Hunt?. The Atlantic. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 грудня 2020). Open Problems in Cooperative AI. arXiv:2012.08630.
- Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). Cooperative AI: machines must learn to find common ground. Nature. 593 (7857): 33—36. Bibcode:2021Natur.593...33D. doi:10.1038/d41586-021-01170-0. PMID 33947992. оригіналу за 22 листопада 2022. Процитовано 24 листопада 2022.
- Crafts, Nicholas (23 вересня 2021). Artificial intelligence as a general-purpose technology: an historical perspective. Oxford Review of Economic Policy (англ.). 37 (3): 521—536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 грудня 2020). Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review. 臺灣東亞文明研究學刊 (англ.). 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243.
- Johnson, James (3 квітня 2019). Artificial intelligence & future warfare: implications for international security. Defense & Security Analysis (англ.). 35 (2): 147—169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Kertysova, Katarina (12 грудня 2018). Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered. Security and Human Rights. 29 (1–4): 55—81. doi:10.1163/18750230-02901005. ISSN 1874-7337. оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
- Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). The economics of artificial intelligence: an agenda (en-us) . Chicago, Illinois. ISBN . OCLC 1099435014. оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
- Whittlestone, Jess; Clark, Jack (31 серпня 2021). Why and How Governments Should Monitor AI Development. arXiv:2108.12427.
- Shevlane, Toby (2022). Sharing Powerful AI Models | GovAI Blog. Center for the Governance of AI. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 липня 2019). The Role of Cooperation in Responsible AI Development. arXiv:1907.04534.
- Ziegler, Bart (8 April 2022). Is It Time to Regulate AI?. Wall Street Journal. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Reed, Chris (13 вересня 2018). How should we regulate artificial intelligence?. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (англ.). 376 (2128): 20170360. Bibcode:2018RSPTA.37670360R. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539. PMID 30082306.
- Belton, Keith B. (7 березня 2019). How Should AI Be Regulated?. IndustryWeek. оригіналу за 29 січня 2022. Процитовано 24 листопада 2022.
- National Security Commission on Artificial Intelligence (2021), Final Report
- National Institute of Standards and Technology (12 липня 2021). AI Risk Management Framework. NIST. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Richardson, Tim (2021). Britain publishes 10-year National Artificial Intelligence Strategy. оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.
- Guidance: National AI Strategy. GOV.UK. 2021. оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.
- Hardcastle, Kimberley (23 серпня 2023). We're talking about AI a lot right now – and it's not a moment too soon. The Conversation (амер.). Процитовано 31 жовтня 2023.
- Iconic Bletchley Park to host UK AI Safety Summit in early November. GOV.UK (англ.). Процитовано 31 жовтня 2023.
- Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. IARPA – TrojAI. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Turek, Matt. Explainable Artificial Intelligence. оригіналу за 19 лютого 2021. Процитовано 24 листопада 2022.
- Draper, Bruce. Guaranteeing AI Robustness Against Deception. Defense Advanced Research Projects Agency. оригіналу за 9 січня 2023. Процитовано 24 листопада 2022.
- National Science Foundation (23 February 2023). Safe Learning-Enabled Systems. оригіналу за 26 лютого 2023. Процитовано 27 лютого 2023.
- Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). Defining organizational AI governance. AI and Ethics (англ.). 2 (4): 603—609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953. оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
- Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen (20 квітня 2020). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. arXiv:2004.07213.
- Welcome to the Artificial Intelligence Incident Database. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- Wiblin, Robert; Harris, Keiran (2022). Nova DasSarma on why information security may be critical to the safe development of AI systems. 80,000 Hours. оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
- OpenAI (2 червня 2022). Best Practices for Deploying Language Models. OpenAI. оригіналу за 15 березня 2023. Процитовано 24 листопада 2022.
- OpenAI. OpenAI Charter. OpenAI. оригіналу за 4 березня 2021. Процитовано 24 листопада 2022.
- Future of Life Institute (2016). . Future of Life Institute. Архів оригіналу за 22 вересня 2023. Процитовано 24 листопада 2022.
Посилання
- Unsolved Problems in ML Safety
- On the Opportunities and Risks of Foundation Models
- An Overview of Catastrophic AI Risks
- AI Accidents: An Emerging Threat
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Bezpeka shtuchnogo intelektu ce mizhdisciplinarna galuz pov yazana iz zapobigannyam neshasnih vipadkiv nepravilnomu vikoristannyu chi inshim shkidlivim naslidkam do yakih mozhut prizvesti sistemi shtuchnogo intelektu ShI Vin ohoplyuye mashinnu etiku ta en yaki mayut na meti zrobiti sistemi shtuchnogo intelektu moralnimi ta korisnimi a bezpeka shtuchnogo intelektu ohoplyuye tehnichni problemi zokrema sistemi monitoringu rizikiv i pidvishennya yih nadijnosti Okrim doslidzhen shtuchnogo intelektu ce peredbachaye rozrobku norm i politiki yaki spriyayut bezpeci MotivaciyiDeyaki sposobi yakimi peredovi nepravilno nalashtovani shtuchni intelektualni tehnologiyi mozhut sprobuvati otrimati bilshe potuzhnosti Povodyachi yaki shukayut vladu mozhut viniknuti tomu sho vlada korisna dlya dosyagnennya praktichno bud yakoyi meti div en Doslidniki shtuchnogo intelektu mayut duzhe rizni dumki shodo serjoznosti ta osnovnih dzherel riziku pov yazanogo z tehnologiyeyu shtuchnogo intelektu hocha opituvannya svidchat pro te sho eksperti serjozno stavlyatsya do visokih rizikiv naslidkiv U dvoh opituvannyah doslidnikiv shtuchnogo intelektu serednij respondent buv optimistichno nalashtovanij shodo shtuchnogo intelektu v cilomu ale postaviv 5 jmovirnist nadzvichajno poganogo napriklad vimirannya lyudini rezultatu peredovogo shtuchnogo intelektu U 2022 roci v opituvanni spilnoti obrobki prirodnoyi movi NLP 37 pogodilisya abo ne pogodilisya z tim sho rishennya shtuchnogo intelektu mozhut prizvesti do katastrofi shonajmenshe takoyi zh poganoyi yak povna yaderna vijna Naukovci obgovoryuyut potochni riziki vid zboyiv kritichnih sistem uperedzhenosti ta stezhennya za dopomogoyu ShI novi riziki pov yazani z tehnologichnim bezrobittyam cifrovimi manipulyaciyami ta vikoristannyam zbroyi ta spekulyativni riziki vid vtrati kontrolyu nad majbutnimi agentami shtuchnogo zagalnogo intelektu AGI Deyaki kritikuvali zanepokoyennya shodo AGI napriklad Endryu Ng yakij u 2015 roci porivnyav yih iz zanepokoyennyam pro perenaselennya Marsa koli mi she navit ne stupili na planetu Z inshogo boku Styuart Dzh Rassel zaklikaye buti oberezhnimi stverdzhuyuchi sho lyudsku vinahidlivist krashe peredbachiti nizh nedoocinyuvati TloRiziki shtuchnogo intelektu pochali serjozno obgovoryuvati na pochatku komp yuternoyi eri Bilshe togo yaksho mi ruhayemosya v napryamku stvorennya mashin yaki navchayutsya i chiya povedinka zminyuyetsya pid vplivom dosvidu mi povinni viznati toj fakt sho kozhna stupin nezalezhnosti yaku mi nadayemo mashini ye stupenem mozhlivogo ignoruvannya nashih bazhan Originalnij tekst angl Moreover if we move in the direction of making machines which learn and whose behavior is modified by experience we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes Norbert Viner 1949 Z 2008 po 2009 rik Asociaciya rozvitku shtuchnogo intelektu AAAI zamovila doslidzhennya shob vivchiti j rozglyanuti potencijnij dovgostrokovij suspilnij vpliv doslidzhen i rozrobok ShI Komisiya zagalom skeptichno postavilasya do radikalnih poglyadiv vislovlenih avtorami naukovoyi fantastiki ale pogodilasya sho dodatkove doslidzhennya bulo b cinnim shodo metodiv rozuminnya ta perevirki diapazonu povedinki skladnih obchislyuvalnih sistem dlya minimizaciyi neochikuvanih rezultativ U 2011 roci Roman Yampolskij vviv termin tehnika bezpeki shtuchnogo intelektu na konferenciyi z filosofiyi ta teoriyi shtuchnogo intelektu pererahuvavshi poperedni zboyi sistem shtuchnogo intelektu ta stverdzhuyuchi sho chastota ta serjoznist takih podij nevpinno zrostatime oskilki ShI staye bilsh zdibnim U 2014 roci filosof Nik Bostrom opublikuvav knigu Superintelekt shlyahi nebezpeki strategiyi Vin vvazhaye sho zrostannya AGI potencijno mozhe stvoriti rizni suspilni problemi pochinayuchi vid vitisnennya robochoyi sili shtuchnim intelektom manipulyacij politichnimi ta vijskovimi strukturami navit do mozhlivosti vimirannya lyudstva Jogo argument pro te sho majbutni peredovi sistemi mozhut stanoviti zagrozu isnuvannyu lyudstva sponukav Ilona Maska Billa Gejtsa i Stivena Gokinga vislovili podibni zanepokoyennya U 2015 roci desyatki ekspertiv zi shtuchnogo intelektu pidpisali vidkritij list shodo shtuchnogo intelektu u yakomu zaklikali do doslidzhennya vplivu shtuchnogo intelektu na suspilstvo ta okreslili konkretni napryamki Na sogodnishnij den list pidpisali ponad 8000 lyudej vklyuchayuchi Yanna Lekuna Shejna Legga Joshua Bengio ta Styuarta Rassela U tomu zh roci grupa vchenih pid kerivnictvom profesora Styuarta Rassela zasnuvala Centr sumisnogo z lyudinoyu shtuchnogo intelektu v Kalifornijskomu universiteti Berkli a Institut majbutnogo zhittya vidiliv granti v rozmiri 6 5 miljoniv dolariv na doslidzhennya spryamovani na zabezpechennya shtuchnogo intelektu ShI zalishayetsya bezpechnim etichnim i korisnim U 2016 roci Upravlinnya naukovoyi ta tehnologichnoyi politiki Bilogo domu ta Universitet Karnegi Mellona ogolosili Gromadskij seminar z bezpeki ta kontrolyu za shtuchnim intelektom yakij buv odnim iz chotiroh seminariv Bilogo domu spryamovanih na doslidzhennya perevag i nedolikiv ShI U tomu zh roci bulo opublikovano Concrete Problems in AI Safety odin iz pershih i najvplivovishih tehnichnih planiv bezpeki AI U 2017 roci Institut majbutnogo zhittya sponsoruvav Asilomar Conference on Beneficial AI de ponad 100 lideriv dumok sformulyuvali principi dlya korisnogo AI zokrema Uniknennya peregoniv komandi yaki rozroblyayut sistemi AI povinni aktivno spivpracyuvati shob uniknuti porushennya standartiv bezpeki U 2018 roci komanda DeepMind Safety okreslila problemi bezpeki shtuchnogo intelektu v specifikaciyah nadijnosti ta nadijnosti Nastupnogo roku doslidniki organizuvali v ICLR seminar prisvyachenij cim problemnim sferam U 2021 roci bulo opublikovano Unsolved Problems in ML Safety v yakomu okresleno napryami doslidzhen u sferi nadijnosti monitoringu uzgodzhennya ta sistemnoyi bezpeki U 2023 roci Rishi Sunak zayaviv sho hoche shob Spoluchene Korolivstvo stalo geografichnim domom dlya globalnogo regulyuvannya bezpeki shtuchnogo intelektu ta prijnyalo pershij globalnij samit z bezpeki ShI Fokus doslidzhennyaSferi doslidzhen bezpeki ShI vklyuchayut nadijnist monitoring i virivnyuvannya Micnist Zmagalna micnist Sistemi shtuchnogo intelektu chasto vrazlivi do superechlivih prikladiv abo vhidnih danih do modelej mashinnogo navchannya ML yaki zlovmisnik navmisno stvoriv shob zmusiti model zrobiti pomilku Napriklad u 2013 roci Szegedy et al viyaviv sho dodavannya pevnih nepomitnih zburen do zobrazhennya mozhe prizvesti do jogo nepravilnoyi klasifikaciyi z visokoyu dostovirnistyu Ce prodovzhuye zalishatisya problemoyu dlya nejronnih merezh hocha v ostannih robotah zburennya yak pravilo dosit veliki shob yih mozhna bulo vidchuti Retelno stvorenij shum mozhe buti dodanij do zobrazhennya shob sprichiniti jogo nepravilnu klasifikaciyu z visokoyu vpevnenistyu Peredbachayetsya sho vsi zobrazhennya pravoruch budut strausami pislya zastosuvannya perturbaciyi Livoruch pravilno peredbachenij zrazok u centri zastosovane zburennya zbilshene v 10 raziv pravoruch zmagalnij priklad Stijkist zmagannya chasto asociyuyetsya z bezpekoyu Doslidniki prodemonstruvali sho audiosignal mozhna nepomitno modifikuvati shob sistemi peretvorennya movi v tekst transkribuvali jogo v bud yake povidomlennya yake vibere zlovmisnik Sistemi viyavlennya merezhevih vtorgnen i zlovmisnogo programnogo zabezpechennya takozh povinni buti stijkimi do zmagan oskilki zlovmisniki mozhut planuvati svoyi ataki shob obduriti detektori Modeli yaki predstavlyayut cili modeli vinagorodi takozh povinni buti stijkimi do zmagalnosti Napriklad model vinagorodi mozhe ociniti naskilki korisnoyu ye tekstova vidpovid a movnu model mozhna navchiti shob maksimizuvati cej bal Doslidniki pokazali sho yaksho movnu model trenuvati dostatno dovgo vona vikoristovuvatime vrazlivi miscya modeli vinagorodi shob otrimati krashij rezultat i girshe vikonuvati zaplanovane zavdannya Cyu problemu mozhna virishiti pokrashivshi konkurentospromozhnist modeli vinagorodi Zagalom bud yaka sistema ShI yaka vikoristovuyetsya dlya ocinki inshoyi sistemi ShI maye buti stijkoyu do zmagan Ce mozhe vklyuchati instrumenti monitoringu oskilki voni takozh potencijno mozhut buti pidrobleni dlya otrimannya bilshoyi vinagorodi Monitoring Ocinka neviznachenosti Dlya lyudej operatoriv chasto vazhlivo ociniti naskilki voni povinni doviryati sistemi shtuchnogo intelektu osoblivo v takih serjoznih situaciyah yak medichna diagnostika Modeli ML zazvichaj virazhayut vpevnenist shlyahom vivedennya jmovirnostej odnak voni chasto nadto samovpevneni osoblivo v situaciyah yaki vidriznyayutsya vid tih z yakimi yih navchili virishuvati Doslidzhennya kalibruvannya spryamovane na te shob imovirnosti modeli yakomoga tochnishe vidpovidali spravzhnomu spivvidnoshennyu pravilnosti modeli Podibnim chinom viyavlennya anomalij abo viyavlennya nerozpovsyudzhennya OOD maye na meti viznachiti koli sistema ShI znahoditsya v nezvichnij situaciyi Napriklad yaksho datchik na avtonomnomu transportnomu zasobi nespravnij abo vin natraplyaye na skladnu miscevist vin povinen poperediti vodiya pro neobhidnist vzyati keruvannya abo zupinitisya Viyavlennya anomalij bulo realizovano shlyahom prostogo navchannya klasifikatora rozriznyati anomalni ta neanomalni vhidni dani hocha vikoristovuyetsya nizka dodatkovih metodiv Viyavlennya shkidlivogo vikoristannya Vcheni ta derzhavni ustanovi vislovlyuyut zanepokoyennya sho sistemi shtuchnogo intelektu mozhut vikoristovuvatisya shob dopomogti zlovmisnikam stvoryuvati zbroyu manipulyuvati gromadskoyu dumkoyu abo avtomatizuvati kiberataki Ci zanepokoyennya viklikayut praktichne zanepokoyennya dlya takih kompanij yak OpenAI yaki rozmishuyut potuzhni instrumenti shtuchnogo intelektu onlajn Shob zapobigti zlovzhivannyam OpenAI stvoriv sistemi viyavlennya yaki poznachayut abo obmezhuyut koristuvachiv na osnovi yih aktivnosti Prozorist Nejronni merezhi chasto opisuyut yak chorni yashiki sho oznachaye sho vazhko zrozumiti chomu voni prijmayut rishennya yaki voni prijmayut u rezultati velicheznoyi kilkosti obchislen yaki voni vikonuyut Cherez ce skladno peredbachiti nevdachi U 2018 roci bezpilotnij avtomobil zbiv na smert pishohoda ne vpiznavshi jogo Cherez prirodu programnogo zabezpechennya shtuchnogo intelektu yak chornogo yashika prichina zboyu zalishayetsya nezrozumiloyu Odniyeyu z najvazhlivishih perevag prozorosti ye mozhlivist poyasnennya Inodi yuridichna vimoga nadati poyasnennya chomu bulo prijnyato rishennya shob zabezpechiti spravedlivist napriklad dlya avtomatichnogo filtruvannya zayavok na prijom na robotu abo viznachennya kreditnogo rejtingu She odna perevaga polyagaye v tomu shob viyaviti prichinu nevdach Na pochatku pandemiyi COVID 19 2020 roku doslidniki vikoristovuvali instrumenti prozorosti shob pokazati sho klasifikatori medichnih zobrazhen zvertali uvagu na nerelevantni mitki likaren Metodi prozorosti takozh mozhna vikoristovuvati dlya vipravlennya pomilok Napriklad u statti Roztashuvannya ta redaguvannya faktichnih asociacij u GPT avtori zmogli viznachiti parametri modeli yaki vplinuli na te yak vona vidpovidaye na zapitannya pro roztashuvannya Ejfelevoyi vezhi Potim voni zmogli vidredaguvati ci znannya shob zmusiti model vidpovidati na zapitannya tak nibi vona vvazhala sho vezha znahoditsya v Rimi a ne u Franciyi Hocha v comu vipadku avtori viklikali pomilku ci metodi potencijno mozhut buti vikoristani dlya efektivnogo yih vipravlennya Tehnika redaguvannya modeli takozh isnuye v komp yuternomu zori Nareshti deyaki stverdzhuyut sho neprozorist sistem shtuchnogo intelektu ye znachnim dzherelom riziku i krashe rozuminnya togo yak voni funkcionuyut mozhe zapobigti serjoznim zboyam u majbutnomu Doslidzhennya vnutrishnoyi interpretaciyi spryamovani na te shob zrobiti modeli mashinnogo navchannya mensh neprozorimi Odniyeyu z cilej cogo doslidzhennya ye viznachennya togo sho predstavlyayut aktivaciyi vnutrishnih nejroniv Napriklad doslidniki identifikuvali nejron u sistemi shtuchnogo intelektu CLIP yakij reaguye na zobrazhennya lyudej u kostyumah lyudini pavuka eskizi lyudini pavuka ta slovo pavuk Ce takozh peredbachaye poyasnennya zv yazkiv mizh cimi nejronami abo lancyugami Napriklad doslidniki viyavili mehanizmi zistavlennya shabloniv u transformatornij uvazi yaki mozhut vidigravati rol u tomu yak movni modeli vivchayut svij kontekst Vnutrishnyu interpretativnist porivnyuyut iz nejronaukoyu V oboh vipadkah meta polyagaye v tomu shob zrozumiti sho vidbuvayetsya v skladnij sistemi hocha doslidniki ML mayut perevagu v tomu sho voni mozhut provoditi idealni vimiryuvannya ta vikonuvati dovilni ablyaciyi Viyavlennya troyaniv Modeli ML potencijno mozhut mistiti troyani abo bekdori urazlivosti yaki zlovmisniki zlovmisno vbudovuyut u sistemu ShI Napriklad troyanska sistema rozpiznavannya oblichchya mozhe nadati dostup koli v poli zoru pevnij yuvelirnij virib abo troyanskij avtonomnij transportnij zasib mozhe funkcionuvati normalno doki ne bude vidno konkretnij triger Zauvazhte sho zlovmisnik povinen mati dostup do navchalnih danih sistemi shob vstanoviti troyan Ce mozhe buti nevazhko zrobiti z deyakimi velikimi modelyami takimi yak CLIP abo GPT 3 oskilki voni navchayutsya na zagalnodostupnih danih v Interneti Doslidniki zmogli pidsaditi troyan do klasifikatora zobrazhen zminivshi lishe 300 iz 3 miljoniv navchalnih zobrazhen Krim zagrozi bezpeci doslidniki stverdzhuyut sho troyani zabezpechuyut konkretne nalashtuvannya dlya testuvannya ta rozrobki krashih instrumentiv monitoringu Zazvichaj riziki shtuchnogo intelektu i tehnologichni riziki v cilomu klasifikuyut yak nepravilne vikoristannya abo neshasni vipadki Deyaki vcheni pripuskayut sho cya struktura ne vidpovidaye vimogam Napriklad kubinska raketna kriza ne bula odnoznachno neshasnim vipadkom chi nepravilnim vikoristannyam tehnologij Politichni analitiki Cvetslot i Defo napisali Perspektivi nepravilnogo vikoristannya ta neshasnih vipadkiv yak pravilo zoseredzhuyutsya lishe na ostannomu etapi prichinno naslidkovogo lancyuga sho prizvodit do shkodi tobto osoba yaka nepravilno vikoristala tehnologiyu abo sistema yaka povodilasya nenavmisno Odnak chasto vidpovidnij prichinno naslidkovij lancyug nabagato dovshij Riziki chasto vinikayut cherez strukturni abo sistemni faktori taki yak konkurentnij tisk rozpovsyudzhennya shkodi shvidkij rozvitok visokij riven neviznachenosti ta nedostatnya kultura bezpeki U shirshomu konteksti tehniki bezpeki strukturni faktori taki yak organizacijna kultura bezpeki vidigrayut centralnu rol u populyarnij sistemi analizu rizikiv STAMP Nathnenni strukturnoyu perspektivoyu deyaki doslidniki pidkreslili vazhlivist vikoristannya mashinnogo navchannya dlya pokrashennya socialno tehnichnih faktoriv bezpeki napriklad vikoristannya mashinnogo navchannya dlya kiberzahistu pokrashennya institucijnogo prijnyattya rishen i spriyannya spivpraci Kiberzahist Deyaki vcheni sturbovani tim sho shtuchnij intelekt zagostrit i bez togo nezbalansovanu gru mizh kiber zlovmisnikami ta kiber zahisnikami Ce posilit stimuli do pershogo udaru ta mozhe prizvesti do bilsh agresivnih ta destabilizuyuchih atak Shob zmenshiti cej rizik deyaki vistupayut za posilennya uvagi do kiberzahistu Krim togo bezpeka programnogo zabezpechennya maye vazhlive znachennya dlya zapobigannya kradizhci ta nepravilnomu vikoristannyu potuzhnih modelej ShI Udoskonalennya institucijnogo prijnyattya rishen Rozvitok shtuchnogo intelektu v ekonomichnij i vijskovij sferah mozhe sprichiniti bezprecedentni politichni vikliki Deyaki vcheni porivnyuyut dinamiku gonki shtuchnogo intelektu z holodnoyu vijnoyu koli retelne sudzhennya nevelikoyi kilkosti osib yaki prijmayut rishennya chasto vkazuvalo na riznicyu mizh stabilnistyu ta katastrofoyu Doslidniki shtuchnogo intelektu stverdzhuyut sho tehnologiyi shtuchnogo intelektu takozh mozhna vikoristovuvati dlya spriyannya prijnyattyu rishen Napriklad doslidniki pochinayut rozroblyati sistemi prognozuvannya ShI ta konsultacijni sistemi Spriyannya spivpraci Bagato najbilshih globalnih zagroz yaderna vijna zmina klimatu tosho buli predstavleni yak vikliki spivpraci Yak i u dobre vidomomu scenariyi dilemi v yaznya pevna dinamika mozhe prizvesti do poganih rezultativ dlya vsih gravciv navit yaksho voni optimalno diyut u vlasnih interesah Napriklad zhodna okrema storona ne maye silnih stimuliv dlya virishennya problemi zmini klimatu navit yaksho naslidki mozhut buti znachnimi yaksho nihto ne vtrutitsya Osnovna problema spivpraci zi shtuchnim intelektom polyagaye v uniknenni gonki na dno U comu scenariyi krayini chi kompaniyi namagayutsya stvoriti bilsh potuzhni sistemi ShI ta nehtuyut bezpekoyu sho prizvodit do katastrofichnoyi avariyi yaka zavdaye shkodi vsim uchasnikam Zanepokoyennya shodo podibnih scenariyiv nadihnulo yak politichni tak i tehnichni zusillya spryamovani na spriyannya spivpraci mizh lyudmi ta mozhlivo takozh mizh sistemami ShI Bilshist doslidzhen shtuchnogo intelektu zoseredzheno na rozrobci okremih agentiv dlya vikonannya izolovanih funkcij chasto v odinochnih igrah Vcheni pripustili sho koli sistemi shtuchnogo intelektu stayut bilsh avtonomnimi mozhe stati vazhlivim vivchennya ta formuvannya sposobu yih vzayemodiyi V uryaduvanniUpravlinnya shtuchnim intelektom shiroko stosuyetsya stvorennya norm standartiv i pravil yaki b keruvali vikoristannyam i rozvitkom sistem shtuchnogo intelektu Doslidzhennya Doslidzhennya upravlinnya bezpekoyu shtuchnogo intelektu variyuyutsya vid fundamentalnih doslidzhen potencijnogo vplivu ShI do konkretnih program Shodo osnovi doslidniki stverdzhuyut sho shtuchnij intelekt mozhe zminiti bagato aspektiv suspilstva zavdyaki jogo shirokomu zastosuvannyu porivnyuyuchi jogo z elektrikoyu ta parovoyu mashinoyu Deyaka robota bula zoseredzhena na peredbachenni konkretnih rizikiv yaki mozhut viniknuti vnaslidok cih vpliviv napriklad riziki vid masovogo bezrobittya vikoristannya zbroyi dezinformaciyi stezhennya ta koncentraciyi vladi Insha robota doslidzhuye osnovni faktori riziku taki yak skladnist monitoringu industriyi shtuchnogo intelektu sho shvidko rozvivayetsya dostupnist modelej shtuchnogo intelektu ta dinamiku gonki do dna Allan Defo golova viddilu dovgostrokovogo upravlinnya ta strategiyi DeepMind pidkresliv nebezpeku peregoniv i potencijnu potrebu u spivpraci ce mozhe buti majzhe neobhidnoyu ta dostatnoyu umovoyu dlya bezpeki ta uzgodzhennya shtuchnogo intelektu shob pered tim buv visokij stupin oberezhnosti do rozgortannya peredovih potuzhnih sistem odnak yaksho uchasniki konkuruyut u sferi z velikoyu viddacheyu dlya tih hto jde pershimi abo vidnosnoyu perevagoyu todi voni budut vimusheni vibirati neoptimalnij riven oberezhnosti Diyi uryadu Deyaki eksperti stverdzhuyut sho she zanadto rano regulyuvati shtuchnij intelekt vislovlyuyuchi zanepokoyennya tim sho regulyuvannya pereshkodzhatime innovaciyam i bulo b nerozumno pospishati z regulyuvannyam cherez neznannya Inshi taki yak biznes magnat Ilon Mask zaklikayut do preventivnih dij dlya pom yakshennya katastrofichnih rizikiv Okrim oficijnogo zakonodavstva derzhavni ustanovi visunuli etichni rekomendaciyi ta rekomendaciyi shodo bezpeki U berezni 2021 roku Komisiya nacionalnoyi bezpeki SShA zi shtuchnogo intelektu povidomila sho progres u ShI mozhe zrobiti vse bilsh vazhlivim zabezpechennya togo shob sistemi vidpovidali cilyam i cinnostyam vklyuchayuchi bezpeku nadijnist i nadijnist Zgodom Nacionalnij institut standartiv i tehnologij rozrobiv strukturu dlya upravlinnya rizikami shtuchnogo intelektu yaka radit sho koli prisutni katastrofichni riziki rozrobku ta rozgortannya slid pripiniti bezpechnim sposobom doki rizikami ne mozhna bude nalezhnim chinom keruvati U veresni 2021 roku Kitajska Narodna Respublika opublikuvala etichni rekomendaciyi shodo vikoristannya shtuchnogo intelektu v Kitayi nagoloshuyuchi na tomu sho rishennya shodo shtuchnogo intelektu povinni zalishatisya pid kontrolem lyudini i zaklikayuchi do mehanizmiv pidzvitnosti U tomu zh misyaci Spoluchene Korolivstvo opublikuvalo svoyu 10 richnu nacionalnu strategiyu shtuchnogo intelektu v yakij zaznacheno sho britanskij uryad bere na sebe dovgostrokovij rizik pozablokovogo zagalnogo shtuchnogo intelektu ta neperedbachuvanih zmin yaki ce oznachatime dlya svit serjozno Strategiya opisuye diyi dlya ocinki dovgostrokovih rizikiv ShI vklyuchayuchi katastrofichni riziki Britanskij uryad ogolosiv pro plani shodo pershogo velikogo globalnogo samitu z bezpeki ShI Ce maye vidbutisya 1 i 2 listopada 2023 roku i ce mozhlivist dlya politikiv i svitovih lideriv rozglyanuti bezposeredni ta majbutni riziki ShI ta te yak ci riziki mozhna pom yakshiti za dopomogoyu globalno skoordinovanogo pidhodu Uryadovi organizaciyi zokrema v Spoluchenih Shtatah takozh zaohochuyut rozvitok tehnichnih doslidzhen bezpeki ShI Diyalnist peredovih doslidnickih proektiv Intelligence iniciyuvala proekt TrojAI dlya viyavlennya ta zahistu vid atak troyanskih program na sistemi ShI DARPA bere uchast u doslidzhenni zrozumilogo shtuchnogo intelektu ta pokrashennya stijkosti proti agresivnih atak A Nacionalnij naukovij fond pidtrimuye Centr nadijnogo mashinnogo navchannya ta nadaye miljoni dolariv na empirichni doslidzhennya bezpeki ShI Korporativne samoregulyuvannya Laboratoriyi shtuchnogo intelektu ta kompaniyi zazvichaj dotrimuyutsya pravil bezpeki ta norm yaki vihodyat za ramki oficijnogo zakonodavstva Odniyeyu z cilej doslidnikiv upravlinnya ye formuvannya cih norm Prikladi rekomendacij shodo bezpeki znajdeni v literaturi vklyuchayut provedennya auditu tretoyi storoni propoziciyu premiyi za viyavlennya zboyiv obmin incidentami ShI dlya ciyeyi meti bula stvorena baza danih incidentiv ShI dotrimannya vkazivok shob viznachiti chi varto publikuvati doslidzhennya chi modeli i pokrashennya informacijnoyi ta kiberbezpeki v laboratoriyah ShI Kompaniyi takozh vzyali na sebe zobov yazannya Cohere OpenAI ta AI21 zaproponuvali ta uzgodili najkrashi metodi rozgortannya movnih modelej zoseredzhuyuchis na pom yakshenni zlovzhivannya Shob uniknuti vnesku v dinamiku peregoniv OpenAI takozh zaznachiv u svoyemu statuti sho yaksho proekt oriyentovanij na cinnosti ta bezpeku nablizitsya do stvorennya AGI ranishe nizh mi mi zobov yazuyemosya pripiniti konkuruvati z cim proektom i pochati dopomagati jomu Krim togo taki lideri galuzi yak generalnij direktor DeepMind Demis Hassabis direktor Facebook AI Yann LeCun pidpisali taki vidkriti listi yak Principi Asilomara ta Vidkritij list shodo avtonomnoyi zbroyi Primitki The Godfather of A I warns of nightmare scenario where artificial intelligence begins to seek power Fortune angl Procitovano 10 chervnya 2023 Grace Katja Salvatier John Dafoe Allan Zhang Baobao Evans Owain 31 lipnya 2018 Viewpoint When Will AI Exceed Human Performance Evidence from AI Experts Journal of Artificial Intelligence Research 62 729 754 doi 10 1613 jair 1 11222 ISSN 1076 9757 originalu za 10 lyutogo 2023 Procitovano 28 listopada 2022 Zhang Baobao Anderljung Markus Kahn Lauren Dreksler Noemi Horowitz Michael C Dafoe Allan 5 travnya 2021 Ethics and Governance of Artificial Intelligence Evidence from a Survey of Machine Learning Researchers arXiv 2105 02117 Stein Perlman Zach Weinstein Raun Benjamin Grace 4 serpnya 2022 2022 Expert Survey on Progress in AI AI Impacts originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Michael Julian Parrish Alicia Mueller Aaron Wang Alex Chen Angelica Madaan Divyam Nangia Nikita Pang Richard Yuanzhe 26 serpnya 2022 What Do NLP Researchers Believe Results of the NLP Community Metasurvey arXiv 2208 12852 Mehrabi Ninareh Morstatter Fred Saxena Nripsuta Lerman Kristina Galstyan Aram 2021 A Survey on Bias and Fairness in Machine Learning ACM Computing Surveys angl 54 6 1 35 arXiv 1908 09635 doi 10 1145 3457607 ISSN 0360 0300 originalu za 23 listopada 2022 Procitovano 28 listopada 2022 Barnes Beth 2021 Risks from AI persuasion Lesswrong originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Brundage Miles Avin Shahar Clark Jack Toner Helen Eckersley Peter Garfinkel Ben Dafoe Allan Scharre Paul Zeitzoff Thomas 30 kvitnya 2018 The Malicious Use of Artificial Intelligence Forecasting Prevention and Mitigation Apollo University Of Cambridge Repository Apollo University Of Cambridge Repository Apollo University of Cambridge Repository doi 10 17863 cam 22520 originalu za 23 listopada 2022 Procitovano 28 listopada 2022 Carlsmith Joseph 16 chervnya 2022 Is Power Seeking AI an Existential Risk arXiv 2206 13353 AGI Expert Peter Voss Says AI Alignment Problem is Bogus NextBigFuture com amer 4 kvitnya 2023 Procitovano 23 lipnya 2023 Dafoe Allan 2016 Yes We Are Worried About the Existential Risk of Artificial Intelligence MIT Technology Review originalu za 28 listopada 2022 Procitovano 28 listopada 2022 Markoff John 20 travnya 2013 In 1949 He Imagined an Age of Robots The New York Times ISSN 0362 4331 originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Association for the Advancement of Artificial Intelligence AAAI Presidential Panel on Long Term AI Futures originalu za 1 veresnya 2022 Procitovano 23 listopada 2022 Yampolskiy Roman V Spellchecker M S 25 zhovtnya 2016 Artificial Intelligence Safety and Cybersecurity a Timeline of AI Failures arXiv 1610 07997 PT AI 2011 Philosophy and Theory of Artificial Intelligence PT AI 2011 originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Yampolskiy Roman V 2013 Muller Vincent C red Artificial Intelligence Safety Engineering Why Machine Ethics is a Wrong Approach Philosophy and Theory of Artificial Intelligence Studies in Applied Philosophy Epistemology and Rational Ethics Berlin Heidelberg Germany Springer Berlin Heidelberg 5 389 396 doi 10 1007 978 3 642 31674 6 29 ISBN 978 3 642 31673 9 originalu za 15 bereznya 2023 procitovano 23 listopada 2022 McLean Scott Read Gemma J M Thompson Jason Baber Chris Stanton Neville A Salmon Paul M 4 lipnya 2023 The risks associated with Artificial General Intelligence A systematic review Journal of Experimental amp Theoretical Artificial Intelligence angl 35 5 649 663 Bibcode 2023JETAI 35 649M doi 10 1080 0952813X 2021 1964003 ISSN 0952 813X Kuo Kaiser 31 bereznya 2015 Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum March 29 2015 Podiya stalasya na 55 49 Procitovano 23 listopada 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite AV media title Shablon Cite AV media cite AV media a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya Cellan Jones Rory 2 grudnya 2014 Stephen Hawking warns artificial intelligence could end mankind BBC News originalu za 30 zhovtnya 2015 Procitovano 23 listopada 2022 Future of Life Institute Research Priorities for Robust and Beneficial Artificial Intelligence An Open Letter Future of Life Institute originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Future of Life Institute AI Research Grants Program Future of Life Institute originalu za 23 listopada 2022 Procitovano 23 listopada 2022 SafArtInt 2016 originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Bach Deborah 2016 UW to host first of four White House public workshops on artificial intelligence UW News originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Amodei Dario Olah Chris Steinhardt Jacob Christiano Paul Schulman John Mane Dan 25 lipnya 2016 Concrete Problems in AI Safety arXiv 1606 06565 Future of Life Institute AI Principles Future of Life Institute originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Research DeepMind Safety 27 veresnya 2018 Building safe artificial intelligence specification robustness and assurance Medium originalu za 10 lyutogo 2023 Procitovano 23 listopada 2022 SafeML ICLR 2019 Workshop originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Hendrycks Dan Carlini Nicholas Schulman John Steinhardt Jacob 16 chervnya 2022 Unsolved Problems in ML Safety arXiv 2109 13916 Browne Ryan 12 chervnya 2023 British Prime Minister Rishi Sunak pitches UK as home of A I safety regulation as London bids to be next Silicon Valley CNBC angl Procitovano 25 chervnya 2023 Goodfellow Ian Papernot Nicolas Huang Sandy Duan Rocky Abbeel Pieter Clark Jack 24 lyutogo 2017 Attacking Machine Learning with Adversarial Examples OpenAI originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Szegedy Christian Zaremba Wojciech Sutskever Ilya Bruna Joan Erhan Dumitru Goodfellow Ian Fergus Rob 19 lyutogo 2014 Intriguing properties of neural networks arXiv 1312 6199 Kurakin Alexey Goodfellow Ian Bengio Samy 10 lyutogo 2017 Adversarial examples in the physical world arXiv 1607 02533 Madry Aleksander Makelov Aleksandar Schmidt Ludwig Tsipras Dimitris Vladu Adrian 4 veresnya 2019 Towards Deep Learning Models Resistant to Adversarial Attacks arXiv 1706 06083 Kannan Harini Kurakin Alexey Goodfellow Ian 16 bereznya 2018 Adversarial Logit Pairing arXiv 1803 06373 Gilmer Justin Adams Ryan P Goodfellow Ian Andersen David Dahl George E 19 lipnya 2018 Motivating the Rules of the Game for Adversarial Example Research arXiv 1807 06732 Carlini Nicholas Wagner David 29 bereznya 2018 Audio Adversarial Examples Targeted Attacks on Speech to Text arXiv 1801 01944 Sheatsley Ryan Papernot Nicolas Weisman Michael Verma Gunjan McDaniel Patrick 9 veresnya 2022 Adversarial Examples in Constrained Domains arXiv 2011 01183 Suciu Octavian Coull Scott E Johns Jeffrey 13 kvitnya 2019 Exploring Adversarial Examples in Malware Detection arXiv 1810 08280 Ouyang Long Wu Jeff Jiang Xu Almeida Diogo Wainwright Carroll L Mishkin Pamela Zhang Chong Agarwal Sandhini Slama Katarina 4 bereznya 2022 Training language models to follow instructions with human feedback arXiv 2203 02155 Gao Leo Schulman John Hilton Jacob 19 zhovtnya 2022 Scaling Laws for Reward Model Overoptimization arXiv 2210 10760 Yu Sihyun Ahn Sungsoo Song Le Shin Jinwoo 27 zhovtnya 2021 RoMA Robust Model Adaptation for Offline Model based Optimization arXiv 2110 14188 Hendrycks Dan Mazeika Mantas 20 veresnya 2022 X Risk Analysis for AI Research arXiv 2206 05862 Tran Khoa A Kondrashova Olga Bradley Andrew Williams Elizabeth D Pearson John V Waddell Nicola 2021 Deep learning in cancer diagnosis prognosis and treatment selection Genome Medicine angl 13 1 152 doi 10 1186 s13073 021 00968 x ISSN 1756 994X PMC 8477474 PMID 34579788 Ovadia Yaniv Fertig Emily Ren Jie Nado Zachary Sculley D Nowozin Sebastian Dillon Joshua V Lakshminarayanan Balaji Snoek Jasper 17 grudnya 2019 Can You Trust Your Model s Uncertainty Evaluating Predictive Uncertainty Under Dataset Shift arXiv 1906 02530 Bogdoll Daniel Breitenstein Jasmin Heidecker Florian Bieshaar Maarten Sick Bernhard Fingscheidt Tim Zollner J Marius 2021 Description of Corner Cases in Automated Driving Goals and Challenges 2021 IEEE CVF International Conference on Computer Vision Workshops ICCVW s 1023 1028 arXiv 2109 09607 doi 10 1109 ICCVW54120 2021 00119 ISBN 978 1 6654 0191 3 Hendrycks Dan Mazeika Mantas Dietterich Thomas 28 sichnya 2019 Deep Anomaly Detection with Outlier Exposure arXiv 1812 04606 Wang Haoqi Li Zhizhong Feng Litong Zhang Wayne 21 bereznya 2022 ViM Out Of Distribution with Virtual logit Matching arXiv 2203 10807 Hendrycks Dan Gimpel Kevin 3 zhovtnya 2018 A Baseline for Detecting Misclassified and Out of Distribution Examples in Neural Networks arXiv 1610 02136 Urbina Fabio Lentzos Filippa Invernizzi Cedric Ekins Sean 2022 Dual use of artificial intelligence powered drug discovery Nature Machine Intelligence angl 4 3 189 191 doi 10 1038 s42256 022 00465 9 ISSN 2522 5839 PMC 9544280 PMID 36211133 Center for Security and Emerging Technology Buchanan Ben Lohn Andrew Musser Micah Sedova Katerina 2021 Truth Lies and Automation How Language Models Could Change Disinformation doi 10 51593 2021ca003 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Propaganda as a service may be on the horizon if large language models are abused VentureBeat 14 grudnya 2021 originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Center for Security and Emerging Technology Buchanan Ben Bansemer John Cary Dakota Lucas Jack Musser Micah 2020 Automating Cyber Attacks Hype and Reality doi 10 51593 2020ca002 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Lessons Learned on Language Model Safety and Misuse OpenAI 3 bereznya 2022 originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Markov Todor Zhang Chong Agarwal Sandhini Eloundou Tyna Lee Teddy Adler Steven Jiang Angela Weng Lilian 10 serpnya 2022 New and Improved Content Moderation Tooling OpenAI originalu za 11 sichnya 2023 Procitovano 24 listopada 2022 Savage Neil 29 bereznya 2022 Breaking into the black box of artificial intelligence Nature doi 10 1038 d41586 022 00858 1 PMID 35352042 originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Center for Security and Emerging Technology Rudner Tim Toner Helen 2021 Key Concepts in AI Safety Interpretability in Machine Learning doi 10 51593 20190042 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 McFarland Matt 19 bereznya 2018 Uber pulls self driving cars after first fatal crash of autonomous vehicle CNNMoney originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Doshi Velez Finale Kortz Mason Budish Ryan Bavitz Chris Gershman Sam O Brien David Scott Kate Schieber Stuart Waldo James 20 grudnya 2019 Accountability of AI Under the Law The Role of Explanation arXiv 1711 01134 Fong Ruth Vedaldi Andrea 2017 Interpretable Explanations of Black Boxes by Meaningful Perturbation 2017 IEEE International Conference on Computer Vision ICCV s 3449 3457 arXiv 1704 03296 doi 10 1109 ICCV 2017 371 ISBN 978 1 5386 1032 9 Meng Kevin Bau David Andonian Alex Belinkov Yonatan 2022 Locating and editing factual associations in GPT Advances in Neural Information Processing Systems 35 arXiv 2202 05262 Bau David Liu Steven Wang Tongzhou Zhu Jun Yan Torralba Antonio 30 lipnya 2020 Rewriting a Deep Generative Model arXiv 2007 15646 Rauker Tilman Ho Anson Casper Stephen Hadfield Menell Dylan 5 veresnya 2022 Toward Transparent AI A Survey on Interpreting the Inner Structures of Deep Neural Networks arXiv 2207 13243 Bau David Zhou Bolei Khosla Aditya Oliva Aude Torralba Antonio 19 kvitnya 2017 Network Dissection Quantifying Interpretability of Deep Visual Representations arXiv 1704 05796 McGrath Thomas Kapishnikov Andrei Tomasev Nenad Pearce Adam Wattenberg Martin Hassabis Demis Kim Been Paquet Ulrich Kramnik Vladimir 22 listopada 2022 Acquisition of chess knowledge in AlphaZero Proceedings of the National Academy of Sciences angl 119 47 e2206625119 arXiv 2111 09259 Bibcode 2022PNAS 11906625M doi 10 1073 pnas 2206625119 ISSN 0027 8424 PMC 9704706 PMID 36375061 Goh Gabriel Cammarata Nick Voss Chelsea Carter Shan Petrov Michael Schubert Ludwig Radford Alec Olah Chris 2021 Multimodal neurons in artificial neural networks Distill 6 3 doi 10 23915 distill 00030 Olah Chris Cammarata Nick Schubert Ludwig Goh Gabriel Petrov Michael Carter Shan 2020 Zoom in An introduction to circuits Distill 5 3 doi 10 23915 distill 00024 001 Cammarata Nick Goh Gabriel Carter Shan Voss Chelsea Schubert Ludwig Olah Chris 2021 Curve circuits Distill 6 1 doi 10 23915 distill 00024 006 originalu za 5 December 2022 Procitovano 5 December 2022 Olsson Catherine Elhage Nelson Nanda Neel Joseph Nicholas DasSarma Nova Henighan Tom Mann Ben Askell Amanda Bai Yuntao 2022 In context learning and induction heads Transformer Circuits Thread arXiv 2209 11895 Olah Christopher Interpretability vs Neuroscience rough note originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Gu Tianyu Dolan Gavitt Brendan Garg Siddharth 11 bereznya 2019 BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain arXiv 1708 06733 Chen Xinyun Liu Chang Li Bo Lu Kimberly Song Dawn 14 grudnya 2017 Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning arXiv 1712 05526 Carlini Nicholas Terzis Andreas 28 bereznya 2022 Poisoning and Backdooring Contrastive Learning arXiv 2106 09667 Zwetsloot Remco Dafoe Allan 11 lyutogo 2019 Thinking About Risks From AI Accidents Misuse and Structure Lawfare originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Zhang Yingyu Dong Chuntong Guo Weiqun Dai Jiabao Zhao Ziming 2022 Systems theoretic accident model and process STAMP A literature review Safety Science angl 152 105596 doi 10 1016 j ssci 2021 105596 originalu za 15 bereznya 2023 Procitovano 28 listopada 2022 Center for Security and Emerging Technology Hoffman Wyatt 2021 AI and the Future of Cyber Competition doi 10 51593 2020ca007 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Center for Security and Emerging Technology Imbrie Andrew Kania Elsa 2019 AI Safety Security and Stability Among Great Powers Options Challenges and Lessons Learned for Pragmatic Engagement doi 10 51593 20190051 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Future of Life Institute 27 bereznya 2019 AI Strategy Policy and Governance Allan Dafoe Podiya stalasya na 22 05 originalu za 23 listopada 2022 Procitovano 23 listopada 2022 Zou Andy Xiao Tristan Jia Ryan Kwon Joe Mazeika Mantas Li Richard Song Dawn Steinhardt Jacob Evans Owain 9 zhovtnya 2022 Forecasting Future World Events with Neural Networks arXiv 2206 15474 Gathani Sneha Hulsebos Madelon Gale James Haas Peter J Demiralp Cagatay 8 lyutogo 2022 Augmenting Decision Making via Interactive What If Analysis arXiv 2109 06160 Lindelauf Roy 2021 Osinga Frans Sweijs Tim red Nuclear Deterrence in the Algorithmic Age Game Theory Revisited NL ARMS Netherlands Annual Review of Military Studies 2020 Nl Arms angl The Hague T M C Asser Press 421 436 doi 10 1007 978 94 6265 419 8 22 ISBN 978 94 6265 418 1 originalu za 15 bereznya 2023 procitovano 24 listopada 2022 Newkirk II Vann R 21 kvitnya 2016 Is Climate Change a Prisoner s Dilemma or a Stag Hunt The Atlantic originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Dafoe Allan Hughes Edward Bachrach Yoram Collins Tantum McKee Kevin R Leibo Joel Z Larson Kate Graepel Thore 15 grudnya 2020 Open Problems in Cooperative AI arXiv 2012 08630 Dafoe Allan Bachrach Yoram Hadfield Gillian Horvitz Eric Larson Kate Graepel Thore 2021 Cooperative AI machines must learn to find common ground Nature 593 7857 33 36 Bibcode 2021Natur 593 33D doi 10 1038 d41586 021 01170 0 PMID 33947992 originalu za 22 listopada 2022 Procitovano 24 listopada 2022 Crafts Nicholas 23 veresnya 2021 Artificial intelligence as a general purpose technology an historical perspective Oxford Review of Economic Policy angl 37 3 521 536 doi 10 1093 oxrep grab012 ISSN 0266 903X originalu za 24 listopada 2022 Procitovano 28 listopada 2022 葉俶禎 黃子君 張媁雯 賴志樫 1 grudnya 2020 Labor Displacement in Artificial Intelligence Era A Systematic Literature Review 臺灣東亞文明研究學刊 angl 17 2 doi 10 6163 TJEAS 202012 17 2 0002 ISSN 1812 6243 Johnson James 3 kvitnya 2019 Artificial intelligence amp future warfare implications for international security Defense amp Security Analysis angl 35 2 147 169 doi 10 1080 14751798 2019 1600800 ISSN 1475 1798 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Kertysova Katarina 12 grudnya 2018 Artificial Intelligence and Disinformation How AI Changes the Way Disinformation is Produced Disseminated and Can Be Countered Security and Human Rights 29 1 4 55 81 doi 10 1163 18750230 02901005 ISSN 1874 7337 originalu za 24 listopada 2022 Procitovano 28 listopada 2022 Agrawal Ajay Gans Joshua Goldfarb Avi 2019 The economics of artificial intelligence an agenda en us Chicago Illinois ISBN 978 0 226 61347 5 OCLC 1099435014 originalu za 15 bereznya 2023 Procitovano 28 listopada 2022 Whittlestone Jess Clark Jack 31 serpnya 2021 Why and How Governments Should Monitor AI Development arXiv 2108 12427 Shevlane Toby 2022 Sharing Powerful AI Models GovAI Blog Center for the Governance of AI originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Askell Amanda Brundage Miles Hadfield Gillian 10 lipnya 2019 The Role of Cooperation in Responsible AI Development arXiv 1907 04534 Ziegler Bart 8 April 2022 Is It Time to Regulate AI Wall Street Journal originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Reed Chris 13 veresnya 2018 How should we regulate artificial intelligence Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences angl 376 2128 20170360 Bibcode 2018RSPTA 37670360R doi 10 1098 rsta 2017 0360 ISSN 1364 503X PMC 6107539 PMID 30082306 Belton Keith B 7 bereznya 2019 How Should AI Be Regulated IndustryWeek originalu za 29 sichnya 2022 Procitovano 24 listopada 2022 National Security Commission on Artificial Intelligence 2021 Final Report National Institute of Standards and Technology 12 lipnya 2021 AI Risk Management Framework NIST originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Richardson Tim 2021 Britain publishes 10 year National Artificial Intelligence Strategy originalu za 10 lyutogo 2023 Procitovano 24 listopada 2022 Guidance National AI Strategy GOV UK 2021 originalu za 10 lyutogo 2023 Procitovano 24 listopada 2022 Hardcastle Kimberley 23 serpnya 2023 We re talking about AI a lot right now and it s not a moment too soon The Conversation amer Procitovano 31 zhovtnya 2023 Iconic Bletchley Park to host UK AI Safety Summit in early November GOV UK angl Procitovano 31 zhovtnya 2023 Office of the Director of National Intelligence Intelligence Advanced Research Projects Activity IARPA TrojAI originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Turek Matt Explainable Artificial Intelligence originalu za 19 lyutogo 2021 Procitovano 24 listopada 2022 Draper Bruce Guaranteeing AI Robustness Against Deception Defense Advanced Research Projects Agency originalu za 9 sichnya 2023 Procitovano 24 listopada 2022 National Science Foundation 23 February 2023 Safe Learning Enabled Systems originalu za 26 lyutogo 2023 Procitovano 27 lyutogo 2023 Mantymaki Matti Minkkinen Matti Birkstedt Teemu Viljanen Mika 2022 Defining organizational AI governance AI and Ethics angl 2 4 603 609 doi 10 1007 s43681 022 00143 x ISSN 2730 5953 originalu za 15 bereznya 2023 Procitovano 28 listopada 2022 Brundage Miles Avin Shahar Wang Jasmine Belfield Haydn Krueger Gretchen Hadfield Gillian Khlaaf Heidy Yang Jingying Toner Helen 20 kvitnya 2020 Toward Trustworthy AI Development Mechanisms for Supporting Verifiable Claims arXiv 2004 07213 Welcome to the Artificial Intelligence Incident Database originalu za 24 listopada 2022 Procitovano 24 listopada 2022 Wiblin Robert Harris Keiran 2022 Nova DasSarma on why information security may be critical to the safe development of AI systems 80 000 Hours originalu za 24 listopada 2022 Procitovano 24 listopada 2022 OpenAI 2 chervnya 2022 Best Practices for Deploying Language Models OpenAI originalu za 15 bereznya 2023 Procitovano 24 listopada 2022 OpenAI OpenAI Charter OpenAI originalu za 4 bereznya 2021 Procitovano 24 listopada 2022 Future of Life Institute 2016 Future of Life Institute Arhiv originalu za 22 veresnya 2023 Procitovano 24 listopada 2022 PosilannyaUnsolved Problems in ML Safety On the Opportunities and Risks of Foundation Models An Overview of Catastrophic AI Risks AI Accidents An Emerging Threat