Програмуючі самі себе комп'ютери давно вже не фантастика. Алгоритмами машинного навчання користуються всі великі інтернет-компанії, і зрозуміло чому: це допомагає пропонувати клієнтові саме такі товари і послуги, які здатні його зацікавити. У своїй книзі вчений-практик Педро Домінгос розповідає про пошук універсального навчального алгоритму, а також про те, в яких областях машинне навчаннязастосовується зараз.

З дозволу видавництва «Манн, Іванов і Фербер» «Лента.ру» публікує уривок з книги Педро Домінгос «Верховний алгоритм. Як машинне навчання змінить наш світ ».

Чому Google коштує набагато дорожче Yahoo? Обидві компанії заробляють на показі реклами в інтернеті, і в тієї, і в іншої прекрасна відвідуваність, обидві проводять аукціони з продажу реклами і використовують машинне навчання, щоб передбачити, з якою ймовірністю користувач на неї клацне (чим вище ймовірність, тим цінніше реклама).

Справа, однак, в тому, що навчаються алгоритми у Google набагато досконаліше, ніж у Yahoo. Звичайно, це не єдина вельми серйозна причина різниці в капіталізації. Кожен передбачений, але не зроблений клік - упущена можливість для рекламодавця і втрачена прибуток для пошукача.

З огляду на, що річна виручка Google становить 50 мільярдів доларів, поліпшення прогнозування всього на один відсоток потенційно означає ще півмільярда доларів на рік на банківському рахунку. Не дивно, що Google - велика шанувальниця машинного навчання, а Yahoo і інші конкуренти щосили намагаються за нею догнати.

Реклама в мережі - всього лише один з аспектів більш широкого явища. На будь-якому ринку виробники і споживачі перед тим, як укласти угоду, повинні вийти один на одного. До появи інтернету основні перешкоди між ними були фізичними: книгу можна було купити тільки в книжковому магазині поблизу, а полки там не безрозмірний. Однак тепер, коли книги можна в будь-який момент скачати на «читалку», проблемою стає колосальне число варіантів.

Як тут шукати, якщо на полицях книгарні стоять мільйони томів? Це вірно і для інших інформаційних продуктів: відео, музики, новин, твітів, блогів, старих добрих сайтів. Це також стосується продуктів і послуг, які можна отримати на відстані: взуття, квітів, гаджетів, готельних номерів, навчання, інвестицій і навіть пошуків роботи і супутника життя. Як знайти один одного? Це визначальна проблема інформаційної ери, і машинне навчання допомагає її вирішити.

У процесі розвитку компанії можна виділити три фази. Спочатку все робиться вручну: власники сімейного магазинчика знають своїх клієнтів особисто і відповідно до цього замовляють, виставляють і рекомендують товари. Це мило, але не дозволяє збільшити масштаб. На другому, і найнеприємніше, етапі компанія виростає настільки, що виникає необхідність користуватися комп'ютерами. З'являються програмісти, консультанти, менеджери баз даних, пишуться мільйони рядків коду, щоб автоматизувати всі, що тільки можна.

Компанія починає обслуговувати набагато більше людей, проте якість падає: рішення приймаються на основі грубої демографічної класифікації, а комп'ютерні програминедостатньо еластичні, щоб підлаштуватися під нескінченну мінливість людства. У якийсь момент програмістів і консультантів починає просто не вистачати, і компанія неминуче звертається до машинного навчання.

Amazon не може витончено закласти в комп'ютерну програму смаки всіх своїх клієнтів, а Facebook не змогла б написати програму, щоб вибрати оновлення, які сподобаються кожному користувачеві. Walmart щодня продає мільйони продуктів. Якби програмісти цієї торгової мережі спробували створити програму, здатну робити мільйони виборів, вони б працювали цілу вічність. Замість цього компанії спускають з ланцюга навчаються алгоритми, нацьковують їх на вже накопичені гори даних і дають їм передбачити, чого хочуть клієнти.

Алгоритми машинного навчання пробиваються через інформаційні завали і, як свахи, знаходять виробників і споживачів один для одного. Якщо алгоритми досить розумні, вони об'єднують найкраще з двох світів: широкий вибір, низькі витрати величезної корпорації і індивідуальний підхід маленької компанії. Ті, що навчаються алгоритми не ідеальні, і останній крок в прийнятті рішення все одно залишається за людиною, але вони розумно звужують вибір, щоб людині було під силу прийняти рішення.

Сьогодні очевидно, що перехід від комп'ютерів до інтернету, а потім до машинного навчання був неминучий. Комп'ютери уможливили інтернет, той породив потік даних і проблему безмежного вибору, а машинне навчання використовує потоки даних, щоб вирішити проблему безмежного вибору. Щоб зрушити попит від «одного розміру на всіх» до довгого, нескінченно різноманітного списку варіантів, одного інтернету мало. У Netflix може бути хоч сто тисяч різних DVD-дисків, але, якщо клієнт не знає, як знайти те, що йому сподобається, він буде за замовчуванням вибирати хіти. І тільки коли Netflix обзавівся навчаються алгоритмом, який вгадує ваші смаки і радить музику, довгий хвіст менш популярних виконавців «злетів».

Коли-небудь станеться неминуче: навчаються алгоритми стануть незамінним посередником і в них зосередиться влада. Алгоритми Google багато в чому визначають, яку інформацію ви бачите, Amazon - які продукти ви купуєте, а Match.com - з ким ви станете зустрічатися. Останній етап - вибрати із запропонованих алгоритмом варіантів - все одно доведеться подолати вам, однак 99,9 відсотка відбору буде проходити без вашої участі. Успіх чи невдача компанії стане залежати від того, чи будуть алгоритми машинного навчання віддавати перевагу її продукцію. Успіх економіки в цілому, тобто чи отримають всі гравці потрібні продукти за найкращою ціною, буде залежати від того, наскільки хороші навчаються алгоритми.

Кращий спосіб гарантувати, що алгоритми машинного навчання стануть віддавати перевагу продукції вашої компанії, - застосовувати їх. Переможе той, у кого краще алгоритми і більше даних. Тут проявляється новий мережевий ефект: той, у кого більше клієнтів, збирає більше інформації, краще навчає моделі, завойовує нових клієнтів і так далі по спіралі (а з точки зору конкурентів - по порочному колу). Перейти c Google на Bing, може бути, навіть простіше, ніж з Windows на Mac OS, але на практиці ви цього не зробите, тому що завдяки вдалому старту і більшій частці на ринку Google краще знає, чого ви хочете, навіть якщо безпосередньо технології у Bing не гірше. Новачкам на ринку пошукових систем можна тільки поспівчувати: не маючи даних, вони змушені боротися проти систем, які навчають свої алгоритми більше десятка років.

Можна подумати, що в якийсь момент дані просто почнуть повторюватися, однак точки насичення не видно, і «довгий хвіст» продовжує тягнутися. Ви, звичайно, і самі бачите: рекомендації Amazon або Netflix поки ще дуже грубі, а результати, які видає Google, залишають бажати багато кращого. За допомогою машинного навчання можна поліпшити кожне властивість продукту, кожен куточок сайту. Посилання внизу сторінки краще зробити червоною або блакитною? Спробуйте обидва варіанти і подивіться, який збере більше кліків. А ще краще взагалі не вимикати навчаються алгоритми і постійно коригувати всі елементи сайту.

Та ж динаміка спостерігається на будь-якому ринку, де є багато варіантів і величезний обсяг даних. Гонка в розпалі, і перемагає той, хто вчиться швидше. Справа не тільки в кращому розумінні клієнта: компанії можуть застосовувати машинне навчання до кожного аспекту своєї діяльності за умови, що на цю тему є дані, а джерела даних - комп'ютери, пристрої зв'язку і все більш дешеві і всюдисущі сенсори. Зараз люблять повторювати, що «дані - це нова нафту» і, як і з нафтою, переробка - великий бізнес. IBM, як і всі інші корпорації, побудувала свою стратегію зростання на надання аналітичних послуг компаніям. Бізнес бачить в даних стратегічний ресурс: що є у нас, але відсутній у конкурентів? Як скористатися цією перевагою? А які дані є у конкурентів, але немає у нас?

Як банк, що не має в своєму розпорядженні базами даних, не може змагатися з банком, їх мають, так і компанія, що не застосовує машинне навчання, не зможе змагатися з тими, хто його використовує. Поки в першій компанії писатимуть тисячі правил для прогнозування побажань покупців, алгоритми другий компанії знайдуть мільярди правил, з цілого набору для кожного окремого клієнта. Така конкуренція нагадує атаку з списами на кулемети. Звичайно, машинне навчання - крута нова технологія, Але для бізнесу справа навіть не в цьому: її доведеться застосовувати, тому що іншого вибору просто немає.

Pedro Domingos

The Master Algorithm

How the Quest for the Ultimate Learning Machine Will Remake Our World

Наукові редактори Олександр Збоїв, Олексій Серенко

Видано з дозволу Pedro Domingos c / o Levine Greenberg Rostan Literary Agency і літературного агентства Synopsis

Правову підтримку видавництва забезпечує юридична фірма«Вегас-Лекс».

© Pedro Domingos, 2015

© Переклад на російську мову, видання російською мовою, оформлення. ТОВ «Манн, Іванов і Фербер», 2016

Цю книгу добре доповнюють:

Нік Бострем

Алекс Беллос

Авинаш Діксіт і Баррі Нейлбафф

Світлої пам'яті моєї сестри Рити, яка програла битву з раком, коли я писав цю книгу

Найбільша завдання науки - пояснити якомога більше експериментальних фактів логічної дедукцією, що виходить із якомога меншої кількості гіпотез і аксіом.

Альберт Ейнштейн

Прогрес цивілізації полягає в збільшенні кількості важливих дій, які ми виконуємо не думаючи.

Альфред Норт Уайтхед

Машинне навчання оточує вас всюди, хоча, може бути, ви про це і не підозрюєте. Саме завдяки машинному навчанню пошукова машина розуміє, які результати (і рекламу) показувати у відповідь на ваш запит. Коли ви переглядаєте пошту, більша частинаспаму проходить повз вас, тому що він був відфільтрований за допомогою машинного навчання. Якщо ви вирішили що-небудь купити на Amazon.com або заглянули на Netflix подивитися фільм, система машинного навчання послужливо запропонує варіанти, які можуть припасти вам до смаку. За допомогою машинного навчання Facebook вирішує, які новини вам показувати, а Twitter підбирає відповідні твіти. Коли б ви не користувалися комп'ютером, дуже ймовірно, що десь задіяно машинне навчання.

Єдиним способом змусити комп'ютер щось робити - від складання двох чисел до управління літаком - було впорядкування певного алгоритму, скрупульозно пояснює машині, що саме від неї вимагається. Однак алгоритми машинного навчання - зовсім інша справа: вони вгадують всі самі, роблячи висновки на основі даних, і чим більше даних, тим краще у них виходить. Це означає, що комп'ютери не треба програмувати: вони програмують себе самі.

Це вірно не тільки в кіберпросторі: машинним навчанням пронизана вся наша життя, починаючи з пробудження і закінчуючи відходом до сну.

Сьомій ранку. Будильник включає радіо. Грає незнайома, але дуже приємна музика: завдяки сервісу Pandora радіо познайомилося з вашими смаками і перетворилося в «персонального діджея». Не виключено, що сама пісня теж з'явилася на світ за допомогою машинного навчання. За сніданком ви гортає ранкову газету. Декількома годинами раніше вона зійшла з друкарського верстата, а той був ретельно налаштований за допомогою того, хто навчається алгоритму, що дозволяє усунути друкарські дефекти. У кімнаті виключно комфортна температура, а рахунки за електрику не кусаються, тому що ви поставили розумний термостат Nest.

По дорозі на роботу автомобіль постійно коригує уприскування палива і рециркуляцію вихлопних газів, щоб звести до мінімуму витрати на бензин. У години пік Inrix, система прогнозування трафіку, економить час, не кажучи вже про нерви. На роботі машинне навчання допомагає вам боротися з інформаційним перевантаженням: ви використовуєте куб даних, щоб підсумувати великий обсяг інформації, дивіться на нього під різними кутами і детально вивчаєте все найважливіше. Якщо треба прийняти рішення, який макет сайту - Аабо В- приверне більше перспективних клієнтів, навчена система протестує обидва варіанти і надасть вам звіт. Треба заглянути на сайт потенційного постачальника, а він на іноземній мові? Ніяких проблем: Google автоматично його для вас переведе. Електронні листи зручно розсортовані по папках, а у «Вхідних» залишилося тільки найважливіше. Текстовий процесор перевіряє за вас граматику і орфографію. Ви знайшли авіарейс для майбутньої відрядження, але квиток поки не купуєте, тому що, за прогнозом Bing Travel, ціни незабаром стануть нижче. Самі того не усвідомлюючи, ви щогодини робите набагато більше роботи, Ніж могли б без допомоги машинного навчання.

У вільну хвилину ви перевіряєте, як там ваші вклади в фонді взаємних інвестицій. Більшість таких фондів використовують навчаються алгоритми для вибору перспективних акцій, а одним з них взагалі повністю управляє система на основі машинного навчання. Під час обіду ви виходите на вулицю і думаєте, де б перекусити. Навчається система Yelp в смартфоні вам допоможе. Мобільні телефонивзагалі під зав'язку наповнені учнями алгоритмами, які невтомно виправляють помилки, дізнаються голосові команди, коректують помилки передачі даних, зчитують штрих-коди і роблять багато інших корисних справ. Смартфон навіть навчився вгадувати ваше наступне дію і давати корисні поради. Наприклад, він підкаже, що зустріч розпочнеться пізніше, тому що літак, на якому повинен прилетіти ваш гість, затримується.

Якщо ви закінчите працювати пізно ввечері, машинне навчання допоможе без пригод дійти до машини на парковці: алгоритми відстежують відео з камери спостереження і дистанційно попереджають охорону, коли помічають щось підозріле. Припустимо, по дорозі додому ви гальмуєте біля супермаркету. Товари на полицях розташовані згідно з вказівками алгоритмів з навчанням: саме вони вирішують, які товари краще замовити, що поставити в кінці ряду і де місце сальси - у відділі соусів або поруч з чіпсами тортильяс. На касі ви розраховуєтесь кредитною карткою. Свого часу навчений алгоритм вирішив, що вам треба відправити пропозицію її оформити, а потім схвалив вашу заявку. Інший алгоритм постійно вишукує підозрілі операції і неодмінно попередить вас, якщо йому здасться, що номер картки вкрадений. Третій алгоритм намагається зрозуміти, наскільки ви задоволені. Якщо ви хороший клієнт, Але виглядаєте незадоволеним, вам відправлять «підсолоджене» пропозицію ще до того, як ви підете до конкурентам.

Повернувшись додому, ви підходите до поштової скриньки і знаходите там лист від одного. Воно було доставлено завдяки алгоритму, який навчився читати написані від руки адреси. Крім листи в ящику лежить звичайна макулатура, теж відібрана для вас алгоритмами з навчанням (нічого не поробиш). Ви на хвилинку зупиняєтеся, щоб подихати свіжим вечірнім повітрям. Злочинців в місті сильно поменшало, з тих пір як поліція почала використовувати статистичне навчання для прогнозування ймовірності правопорушень і направляти в проблемні райони патрульних. Ви вечеряєте в колі сім'ї і дивіться телевізор. У новинах показують мера. Ви за нього проголосували, тому що в день виборів він особисто вам подзвонив. Йому на вас вказав навчається алгоритм, який побачив в вас ключового виборців, які не. Після вечері можна подивитися футбол. Обидві команди підбирали гравців за допомогою статистичного навчання. Або краще пограти з дітьми в Xbox? В такому випадку навчається алгоритм в приставці Kinect буде відстежувати стан і руху вашого тіла. Перш ніж відійти до сну, ви приймаєте ліки, розроблені і протестоване за допомогою алгоритмів з навчанням. Не виключено, що навіть ваш доктор користувався машинним навчанням при постановці діагнозу, починаючи з інтерпретації рентгенограми і закінчуючи виведенням на основі незвичайного набору симптомів.

Про книгу

Педро Домінгос - один з провідних дослідників в цій області - відкриває завісу і вперше доступно розповідає про ...

Читати повністю

Про книгу
Популярна і цікава книга про пошук універсального самонавчального алгоритму від ученого-практика.

Алгоритми керують нашим життям. Вони знаходять книги, фільми, роботу і партнерів для нас, керують нашими інвестиціями і розробляють нові ліки. Ці алгоритми все більше навчаються на основі тих масивів даних, що ми залишаємо після себе в сучасному цифровому світі. Немов цікаві діти, вони спостерігають за нами, наслідують і ставлять експерименти. А в провідних лабораторіях і університетах працюють над створенням головного самонавчального алгоритму, який може вивуджувати будь-які знання з даних і вирішувати будь-які завдання - ще до того, як ми їх сформулюємо.

Машинне навчання дозволяє розумним роботам і комп'ютерів програмувати самих себе. Це одна з найважливіших сучасних технологій - і вона ж одна з найбільш таємничих.

Педро Домінгос - один з провідних дослідників в цій області - відкриває завісу і вперше доступно розповідає про цю області знань, знайомлячи читачів з 5 основними школами машинного навчання і показуючи, як вони використовують ідеї з нейробіології, еволюційної біології, фізики та статистики, щоб створювати алгоритми , що допомагають нам.

Попутно він розповідає про ідею універсального самонавчального алгоритму і про те, як він змінить вас, бізнес, науку і все суспільство.

Від автора
Верховний алгоритм зможе витягти з даних взагалі все знання - знання минулого, сьогодення і майбутнього. Винахід цього алгоритму стане одним з найбільших проривів в історії науки. Воно прискорить прогрес буквально у всьому, змінить світ так, як ми ледь можемо собі сьогодні уявити. Верховний алгоритм для машинного навчання - це щось на зразок стандартної моделі у фізиці елементарних частинок і центральної догми молекулярної біології: єдина теорія, яка пояснює все, що ми сьогодні знаємо, і закладає фундамент десятиліть або цілих століть майбутнього прогресу. Верховний алгоритм - ключ до вирішення поставлених перед людством найскладніших проблем: від створення домашніх роботів до лікування раку.

Для кого ця книга
Для тих, хто цікавиться машинним навчанням і штучним інтелектом.

І для всіх, хто хоче дізнатися про те, що відбувається на передньому краї науки.

про автора
Педро Домінгос - професор Вашингтонського університету, провідний експерт по машинному навчання і штучного інтелекту. Його перу належить одна книга і безліч наукових статей. Домінгос - лауреат кількох професійних нагород.

З моменту свого відкриття правило Хебба - наріжний камінь коннекціонізма. Своєю назвою цей науковий напрям зобов'язана поданням, що знання зберігаються в з'єднаннях між нейронами. У вийшла в 1949 році книзі The Organization of Behavior ( «Організація поведінки») канадський психолог Дональд Хебб описував це в такий спосіб: «Якщо аксон клітини Aрозташований досить близько до клітки Bі неодноразово або постійно бере участь в її стимуляції, то в одній або обох клітинах матимуть місце процеси росту або метаболічні зміни, які підвищують ефективність збудження кліткою Aклітини B». Це твердження часто перефразують як «нейрони, які спрацьовують разом, зв'язуються один з одним».

У правилі Хебба злилися ідеї психології, нейробіології і чимала частка домислів. Асоціативне навчання було улюбленою темою британських емпіриків починаючи з Локка, Юма і Джона Стюарта Мілля. У Principles of Psychology ( «Принципи психології») Вільям Джеймс сформулював загальний принципасоціації, який чудово схожий на правило Хебба, але замість нейронів в ньому присутні процеси в головному мозку, а замість ефективності стимуляції - поширення збудження. Приблизно в той же самий час великий іспанський нейробіолог Сантьяго Рамон-і-Кахаль провів перші докладні дослідження мозку, фарбуючи нейрони по недавно винайденому методу Гольджі, і каталогізував свої спостереження, як ботаніки класифікують нові види дерев. На час Хебба нейробіологи в загальних рисах розуміли, як працюють нейрони, однак саме він першим запропонував механізм, згідно з яким нейрони можуть кодувати асоціації.

У символістському навчанні між символами і поняттями, які вони представляють, існує однозначна відповідність. Коннекціоністскіе ж уявлення розподілені: кожне поняття представлено безліччю нейронів, і кожен нейрон бере участь в уявленні багатьох концепцій. Нейрони, які збуджують один одного, утворюють, в термінології Хебба, «ансамблі клітин». За допомогою таких зборів в головному мозку представлені поняття і спогади. У кожен ансамбль можуть входити нейрони з різних областей мозку, ансамблі можуть перетинатися. Так, клітинний ансамбль для поняття «нога» включає ансамбль для поняття «ступня», в який, в свою чергу, входять ансамблі для зображення ступні і звучання слова «ступня». Якщо ви запитаєте символістську систему, де знаходиться поняття «Нью-Йорк», вона вкаже точне місце його зберігання в пам'яті. У коннекціоністской системі відповідь буде «скрізь потроху».

Ще одна відмінність між символістським і коннекціоністскім навчанням полягає в тому, що перше - послідовне, а друге - паралельне. У разі зворотного дедукції ми крок за кроком розбираємося, яке правило необхідно ввести, щоб від посилок прийти до бажаних висновків. У коннекціоністской моделі все нейрони вчаться одночасно, згідно з правилом Хебба. У цьому було використано відмінності між комп'ютерами і мозком. Комп'ютери навіть зовсім звичайні операції - наприклад, складання двох чисел або перемикання вимикача - роблять маленькими кроками, тому їм потрібно багато етапів. При цьому кроки можуть бути дуже швидкими, тому що транзистори здатні включатися і вимикатися мільярди раз в секунду. Мозок же вміє виконувати велика кількістьобчислень паралельно завдяки одночасній роботі мільярдів нейронів. При цьому нейрони можуть стимулюватися в кращому випадку тисячу разів в секунду, і кожне з цих обчислень повільне.

Кількість транзисторів в комп'ютері наближається до кількості нейронів в головному мозку людини, однак мозок безумовно виграє в кількості з'єднань. Типовий транзистор в процесорі безпосередньо пов'язаний лише з небагатьма іншими, і застосовувана технологія планарних напівпровідників жорстко обмежує потенціал вдосконалення роботи комп'ютера. А у нейрона - тисячі синапсів. Якщо ви йдете по вулиці і побачили знайому, вам знадобиться лише десята частка секунди, щоб її дізнатися. З огляду на швидкість перемикання нейронів, цього часу ледь вистачило б для сотні кроків обробки інформації, але за ці сотні кроків мозок здатний просканувати всю пам'ять, знайти в ній дуже вдалий і адаптувати знайдене до нового контексту (інший одяг, інше освітлення і так далі). Кожен крок обробки може бути дуже складним і включати великий обсяг інформації.

Це не означає, що за допомогою комп'ютера можна симулювати роботу мозку: в кінці кінців, саме це роблять коннекціоністскіе алгоритми. Оскільки комп'ютер - універсальна машинаТьюринга, він може виконувати обчислення, що відбуваються в мозку, як і будь-які інші, за умови, що у нього є достатньо пам'яті і часу. Зокрема, недолік зв'язності можна компенсувати швидкістю: використовувати один і той же з'єднання тисячу разів, щоб імітувати тисячу з'єднань. Насправді сьогодні головний недоліккомп'ютерів полягає в тому, що на відміну від мозку вони споживають енергію: ваш мозок використовує приблизно стільки потужності, скільки маленька лампочка, в той час як електрикою, годує комп'ютер Watson, про який ми розповідали вище, можна висвітлити цілий бізнес-центр.

Проте для імітації роботи мозку одного правила Хебба мало: спочатку треба розібратися з пристроєм головного мозку. Кожен нейрон нагадує крихітне деревце з величезною кореневою системою здендрітов і тонким хвилястим стволом - аксонів. Мозок в цілому схожий на ліс з мільярдів таких дерев, проте ліс цей незвичайний: гілки дерев з'єднані в ньому з корінням тисяч інших дерев (такі сполуки називаються синапсами), утворюючи колосальний, небачене хитросплетіння. У одних нейронів аксони короткі, у інших - надзвичайно довгі, що тягнуться від одного кінця мозку до іншого. Якщо розташувати аксони мозку один за одним, вони займуть відстань від Землі до Місяця.

Ці джунглі потріскують від електричних розрядів. Іскри біжать по стовбурах і породжують в сусідніх деревах ще більший сонм іскор. Час від часу ліс несамовито спалахує, потім знову заспокоюється. Коли людина ворушить пальцем на нозі, серії електричних розрядів - так званих потенціалів дії - біжать вниз по спинному мозку, поки не досягнуть м'язів пальця і ​​не накажуть йому рухатися. Робота мозку схожа на симфонію таких електричних розрядів. Якби можна було подивитися зсередини на те, що відбувається в той момент, коли ви читаєте цю сторінку, сцена затьмарила б найактивніші мегаполіси з фантастичних романів. Цей неймовірно складний візерунок нейронних іскор в результаті породжує людську свідомість.

За часів Хебба ще не вміли вимірювати силу синапсів і її зміни, не кажучи вже про те, щоб розбиратися в молекулярної біології синаптичних процесів. Сьогодні ми знаємо, що синапси виникають і розвиваються, коли незабаром після пресинаптических нейронів порушуються постсинаптические. Як і у всіх інших клітинах, концентрація іонів всередині і за межами нейрона відрізняється, і через це на клітинній мембрані є електрична напруга. Коли пресинаптичний нейрон збуджується, в синаптичну щілину виділяються крихітні бульбашки з молекулами нейротрансмітерів. Вони змушують відкритися канали в мембрані постсинаптичного нейрона, з яких виходять іони калію і натрію, що змінюють напругу на мембрані. Якщо одночасно збуджується достатню кількість близько розташованих пресинаптических нейронів, напруга підскакує і по аксону постсинаптичного нейрона проходить потенціал дії. Завдяки цьому іонні канали стають восприимчивее, а також з'являються нові, які посилюють синапс канали. Наскільки нам відомо, нейрони вчаться саме так.

Наступний крок - перетворити все це в алгоритм.

Зліт і падіння перцептрону

Перша формальна модель нейрона була запропонована в 1943 році Уорреном Маккаллок і Уолтером Питтсом. Вона була багато в чому схожа на логічні вентилі, з яких складаються комп'ютери. Вентиль АБО включається, коли як мінімум один з його входів включений, а вентиль І - коли включені всі. Нейрон Маккаллока-Питтса включається, коли кількість його активних входів перевищує певний порогове значення. Якщо поріг дорівнює одиниці, нейрон діє як вентиль АБО. Якщо поріг дорівнює числу входів - як вентиль І. Крім того, один нейрон Маккаллока-Питтса може не давати включатися іншому: це моделює і інгібуючі синапси, і вентиль НЕ. Таким чином, нейронні мережі можуть здійснювати всі операції, які вміє робити комп'ютер. Спочатку комп'ютер часто називали електронним мозком, і це була не просто аналогія.

Однак нейрон Маккаллока-Питтса не вміє вчитися. Для цього з'єднанням між нейронами треба привласнити змінний вага, і в результаті вийде так званий перцептрон. Перцептрони були винайдені в кінці 1950-х Френк Розенблат, психологом з Корнельського університету. Харизматичний оратор і дуже жива людина, Розенблатт зробив для зародження машинного навчання більше, ніж хто б то не було. Своєю назвою перцептрони зобов'язані його інтересу до застосування своїх моделей в проблемах сприйняття (перцепції), наприклад розпізнавання мови і символів. Замість того щоб впровадити перцептрони в комп'ютерні програми, які в ті дні були дуже повільними, Розенблатт побудував власні пристрої: вага був представлений в них у вигляді змінних резисторів, як ті, що стоять в перемикачах з регульованою яскравістю, а для зваженого навчання використовувалися електромотори, які крутили ручки резисторів. (Як вам такі високі технології?)

У перцептроном позитивний вага становить збудливу з'єднання, а негативний - ингибирующее. Якщо зважена сума входів перцептрона вище порогового значення, він видає одиницю, а якщо нижче - нуль. Шляхом варіювання ваг і порогів можна змінити функцію, яку обчислює перцептрон. Звичайно, багато подробиць роботи нейронів ігнорується, але ж ми хочемо все максимально спростити, і наша мета - не побудувати реалістичну модель мозку, а розробити навчається алгоритм широкого застосування. Якщо якісь з проігнорованих деталей виявляться важливими, їх завжди можна буде додати. Незважаючи на всі спрощення і абстрактність, можна помітити, що кожен елемент цієї моделі відповідає елементу нейрона:

Чим більше вага входу, тим сильніше відповідний синапс. Тіло клітини складає все зважені входи, а аксон застосовує до результату ступінчасту функцію. На малюнку в рамці аксона показаний графік ступінчастої функції: нуль для низьких значень входу різко переходить в одиницю, коли вхід досягає порогового значення.

Уявіть, що у перцептрону є два безперервних входу xі y(це означає що xі yможуть приймати будь-які числові значення, а не тільки 0 і 1). У такому випадку кожен приклад можна представити у вигляді точки на площині, а межею між позитивними (для яких перцептрон видає 1) і негативними (вихід 0) прикладами буде пряма лінія:

Справа в тому, що кордон - це ряд точок, в яких зважена сума точно відповідає пороговому значенню, а зважена сума - лінійна функція. Наприклад, якщо вага x- 2, вага y- 3, а поріг - 6, межа буде задана рівнянням 2 x+ 3 = 6. Точка x = 0, y= 2 лежить на кордоні, і, щоб утриматися на ній, нам треба робити три кроки вперед для кожних двох кроків вниз: тоді приріст xзаповнить зменшення y. Отримані в результаті точки утворюють пряму.

Знаходження ваг перцептрону увазі варіювання напрямку прямої до тих пір, поки з одного боку не опиняться всі позитивні приклади, а з іншого - все негативні. В одному вимірі межа - це точка, в двох вимірах - пряма, в трьох - площину, а якщо вимірювань більше трьох - гіперплоскость. Візуалізувати щось в гіперпросторі складно, проте математика в ньому працює точно так же: в nвимірах у нас буде nвходів, а у перцептрону - nваг. Щоб вирішити, спрацьовує перцептрон чи ні, треба помножити любий каприз на значення відповідного вхідного сигналу і порівняти їх загальну суму з граничним значенням.

Якщо ваги всіх входів рівні одиниці, а поріг - це половина числа входів, перцептрон спрацює у разі, якщо спрацьовує більше половини входів. Іншими словами, перцептрон схожий на крихітний парламент, в якому перемагає більшість (хоча, напевно, не такий вже і крихітний, з огляду на, що в ньому можуть бути тисячі членів). Але при цьому парламент не зовсім демократичний, оскільки в цілому не всі мають рівне право голосу. Нейронна мережа в цьому відношенні більше схожа на Facebook, тому що кілька близьких друзів стоять тисячі френдів, - саме їм ви найбільше довіряєте, і вони найбільше на вас впливають. Якщо один порекомендує вам фільм, ви подивіться його і вам сподобається, наступного разу ви, ймовірно, знову зробите за його порадою. З іншого боку, якщо подруга постійно захоплюється фільмами, які не доставляють вам ніякого задоволення, ви почнете ігнорувати її думку (і не виключено, що дружба прохолоне).

Саме так алгоритм перцептрону Розенблатта дізнається вага входів.

Давайте розглянемо «бабусину клітку», улюблений уявний експеримент когнітивних нейробіологів. «Бабусина клітина» - це нейрон в вашому мозку, який збуджується тоді і тільки тоді, коли ви бачите свою бабусю. Чи є така клітина насправді - питання відкрите, але давайте винайдемо її спеціально для машинного навчання. Перцептрон вчиться пізнавати бабусю наступним чином. Вхідні сигнали для цієї клітини - або необроблені пікселі, або різні жорстко прошиті властивості зображення, наприклад карі очі: Вхід буде дорівнює 1, якщо на зображенні є карі очі, і 0 - якщо ні. Спочатку вага всіх з'єднань, що ведуть від властивостей до нейронам, маленький і довільний, як у синапсів в мозку новонародженого. Потім ми показуємо перцептроном ряд картинок: на одних є ваша бабуся, а на інших немає. Якщо перцептрон спрацьовує при вигляді бабусі або не спрацьовує, коли бачить когось ще, значить, ніякого навчання не потрібно (не чини те, що працює). Але якщо перцептрон не спрацьовує, коли дивиться на бабусю, це означає, що зважена сума значень його входів повинна бути вище і ваги активних входів треба збільшити (наприклад, якщо бабуся кароока, вага цієї риси підвищиться). І навпаки, якщо перцептрон спрацьовує, коли не треба, ваги активних входів слід зменшити. Помилки - двигун навчання. Згодом риси, які вказують на бабусю, отримають велику вагу, а ті, що не вказують, - маленький. Як тільки перцептрон почне завжди спрацьовувати при вигляді вашої бабусі і помилкові спрацьовування зникнуть, навчання завершиться.

Перцептрон викликав захват у науковому співтоваристві. Він був простим, але при цьому умів дізнаватися друковані літери і звуки мови: для цього потрібно тільки навчання на прикладах. Колега Розенблатта по Корнельському університету довів: якщо позитивні і негативні приклади можна розділити гиперплоскостью, перцептрон цю площину знайде. Розенблатта і іншим вченим здавалося цілком досяжним справжнє розуміння принципів, за якими вчиться мозок, а з ним - потужний багатоцільовий навчається алгоритм.

Але потім перцептрон уперся в стіну. Інженерів знань дратували заяви Розенблатта: вони заздрили увазі і фінансуванню, яке залучали нейронні мережі в цілому і перцептрони зокрема. Одним з таких критиків був Марвін Мінський, колишній однокласник Розенблатта по Науковій середній школів Бронксі, який керував на той час групою штучного інтелекту в Массачусетському технологічному інституті. (Цікаво, що його дисертація була присвячена нейронних мереж, але потім він в них розчарувався.) У 1969 році Мінський і його колега Сеймур Пейперт опублікували книгу Perceptrons: an Introduction to Computational Geometry, де докладно, один за іншим описали прості речі, яким однойменний алгоритм не в змозі навчитися. Найпростіший і тому самий вбивчий приклад - це функція «виключає АБО» (скорочено XOR), яка вірна, якщо вірний один, але не обидва входи. Наприклад, дві найбільш лояльні групи покупців продукції Nike - це, мабуть, хлопчики-підлітки і жінки середнього віку. Іншими словами, ви, швидше за все, купите кросівки Nike, якщо ви молоді XOR жінка. Молодість підходить, жіноча стать теж, але не обидва чинники одночасно. Якщо ви не молоді і ви не жінка, для реклами Nike ви теж безперспективна мета. Проблема з XOR в тому, що не існує прямої лінії, здатної відокремити позитивні приклади від негативних. На малюнку показані два невідповідних кандидата:

Оскільки перцептрони можуть знаходити тільки лінійні кордону, XOR для них недоступний, а якщо вони не здатні навіть на це, значить, перцептрон - НЕ найкраща модельтого, як вчиться мозок, і невідповідний кандидат в Верховні алгоритми.

Перцептрон моделює тільки навчання окремого нейрона. Мінський і Пейперт визнавали, що шари взаємопов'язаних нейронів повинні бути здатні на більше, але не розуміли, як такі шари навчити. Інші вчені теж цього не знали. Проблема в тому, що не існує чіткого способу змінити вагу нейронів в «прихованих» шарах, щоб зменшити помилки нейронів у вихідному шарі. Кожен прихований нейрон впливає на вихід безліччю шляхів, і у кожної помилки - тисячі батьків. Кого звинувачувати? І навпаки, кому дякувати за правильний вихід? Завдання присвоєння коефіцієнтів довіри з'являється щораз, коли ми намагаємося навчити складну модель, і являє собою одну з центральних проблем машинного навчання.

Книга Perceptrons була пронизливо ясною, бездоганною з точки зору математики і зробила катастрофічний вплив на машинне навчання, яке в ті роки асоціювалося в основному з нейронними мережами. Більшість дослідників (не кажучи вже про спонсорів) прийшли до висновку, що єдиний спосіб побудувати інтелектуальну систему - це явно її запрограмувати, тому в науці на 15 років запанувала інженерія знань, а машинне навчання, здавалося, було приречене залишитися на звалищі історії.

Фізик робить мозок зі скла

Якщо про історію машинного навчання зняти голлівудський блокбастер, Марвін Мінський був би головним лиходієм - злий королевою, яка дає Білосніжку отруєне яблуко і кидає її в лісі (в написаному в 1988 році есе Сеймур Пейперт навіть жартома порівнював себе з мисливцем, якого королева послала в ліс вбити Білосніжку). Принцом ж на білому коні був би фізик з Каліфорнійського технологічного інституту на ім'я Джон Хопфилд. У 1982 році Хопфилд зауважив разючу подібність між мозком і спінові стеклами - екзотичним матеріалом, який дуже люблять фахівці зі статистичної фізики. Це відкриття привело до відродження коннекціонізма, піком якого кілька років тому стало винахід перших алгоритмів, здатних вирішувати проблему коефіцієнтів довіри. Крім того, воно поклало початок нової ери, в якій машинне навчання витіснило інженерію знань з положення домінуючою парадигми в науці про штучний інтелект.

Спінові стекла насправді не скла, хоча деякі склоподібних властивості у них є. Швидше, вони магнітні матеріали. Кожен електрон - це крихітний магніт, так як у нього є спін, який може вказувати «вгору» або «вниз». У таких матеріалах, як залізо, спини електронів зазвичай вишиковуються в одному напрямку: якщо електрон зі спіном «вниз» оточений електронами зі спіном «нагору», він, ймовірно, перевернеться. Коли більшість спинив в шматку заліза вибудовується, він перетворюється в магніт. У звичайних магнітах сила взаємодії між сусідніми спинами однакова для всіх пар, проте в спиновом склі вона може відрізнятися і навіть буває негативною, через що розташовані поруч спини приймають протилежні напрямки. Енергія звичайного магніту найнижче, якщо все спини вирівняні, але в спиновом склі все не так просто: взагалі кажучи, знаходження стану найменшої енергії для спінового скла - це NP-повна проблема, тобто до неї можна звести практично будь-яку іншу складну проблему оптимізації. В результаті спіновий скло не обов'язково приходить в стан найменшої енергії: воно може застрягти в локальному, а не глобальному мінімумі, тобто стані меншою енергії, ніж їхні капітали, в які можна з нього перейти, помінявши спин. Багато в чому це схоже на дощову воду, яка стікає в озеро, а не прямо в океан.

Хопфилд зауважив цікаве схожість між спіновим склом і нейронними мережами. Спін електрона відповідає на поведінку своїх сусідів багато в чому так само, як нейрон: він перевертається догори, якщо зважена сума сусідів перевищує порогове значення, і вниз (або не змінюється), якщо не перевищує. Натхненний цим фактом, Хопфилд визначив тип нейронної мережі, яка з часом еволюціонує таким же чином, як спіновий скло, і постулював, що стану мінімальної енергії для цієї мережі - це її спогади. Кожне таке стан являє собою «область тяжіння» для вихідних станів, які в неї сходяться, і завдяки цьому нейронна мережа здатна розпізнавати патерни: наприклад, якщо один зі спогадів - чорно-білі пікселі, що утворюють цифру дев'ять, а на зображенні - перекручена дев'ятка, мережу зведе її до «ідеальної» цифрі і дізнається. Раптово до машинного навчання стало можна застосувати широкий спектр фізичних теорій, в цю дисципліну пішов потік статистичних фізиків, допомагаючи витягти її з локального мінімуму, в якому вона застрягла.

Однак спіновий скло - це все ще дуже нереалістична модель мозку. По-перше, спінові взаємодії симетричні, а з'єднання між нейронами головного мозку - немає. Інший великою проблемою, яку модель Хопфілда ігнорувала, було те, що справжні нейрони діють за законами статистики: вони не детерміністських вмикаються і вимикаються в залежності від входу, а скоріше включаються з більшою ймовірністю, але не обов'язково, при підвищенні зваженої суми входів. У 1985 році дослідники Девід Оклі, Джеффрі Хінтон і Террі Сейновскі замінили детерминистские нейрони в мережах Хопфилда ймовірносними. Нейронна мережа отримала імовірнісний розподіл за своїми станам, і стану високої енергії стали експоненціально менш вірогідні, ніж низькоенергетичні. Імовірність знаходження мережі в конкретному стані була задана добре відомим в термодинаміки розподілом Больцмана, тому вчені називали свою мережу машиною Больцмана.

Машина Больцмана складається з суміші сенсорних і прихованих нейронів (аналогічно, наприклад, сітківці ока і мозку) і вчиться шляхом почергового сну і пробудження, як людина. У розбуджені стані сенсорні нейрони спрацьовують відповідно до даних, а приховані еволюціонують відповідно до динаміці мережі і сенсорним входів. Наприклад, якщо мережі показати зображення дев'ятки, нейрони, що відповідають чорним пикселям зображення, включаться, інші залишаться вимкненими, і приховані нейрони будуть довільно включатися за розподілом Больцмана для цих значень пікселів. Під час сну сенсорні і приховані нейрони вільно блукають, а перед світанком нового дня машина порівнює статистику своїх станів під час сну і під час вчорашньої активності і змінює ваги зв'язків так, щоб узгодити ці стани. Якщо протягом дня два нейрона зазвичай спрацьовували разом, а уві сні рідше, вага їх сполуки збільшиться. Якщо навпаки - зменшиться. День за днем ​​передбачені кореляції між сенсорними нейронами еволюціонують, поки не почнуть збігатися з реальними: в цей момент машина Больцмана отримує хорошу модель даних, тобто проблема присвоєння коефіцієнтів довіри ефективно вирішується.

Джефф Хінтон продовжив дослідження і в наступні десятиліття перепробував багато варіантів машини Больцмана. Хінтон - психолог, який став інформатики, і праправнук Джорджа Буля, винахідника логічного обчислення, використовуваного у всіх цифрових комп'ютерах, - провідний коннекціоніст в світі. Він довше і наполегливіше інших намагався розібратися, як працює мозок. Хінтон розповідає, що якось прийшов додому з роботи і збуджено крикнув: «Є! Я зрозумів, як працює мозок! » На що дочка йому відповіла: «Папа, знову ?!» В Останнім часомвін захопився глибоким навчанням, про який ми поговоримо далі в цій главі, а також брав участь в розробці методу зворотного поширення помилки - більш досконалого, ніж машини Больцмана, алгоритму, що вирішує проблему присвоєння кредитів довіри (про це піде мова в наступному розділі). Машини Больцмана можуть вирішувати цю задачу в принципі, але на практиці навчання йде дуже повільно і важко, тому такий підхід в більшості випадків недоцільний. Для наступного прориву потрібно було відмовитися від ще одного надмірного спрощення, яке сходить до Маккаллок і Піттс.

Найважливіша крива в світі

По відношенню до сусідів нейрон може бути тільки в одному з двох станів - активним і неактивним. Однак тут не вистачає важливого нюансу. Потенціали дії тривають недовго: напруга підскакує всього на частку секунди і негайно повертається в стан спокою. Цей стрибок ледь реєструється приймають нейроном: щоб розбудити клітку, потрібна низка стрибків з короткими проміжками. Звичайні нейрони періодично порушуються і без всякої стимуляції. Коли стимуляція накопичується, нейрон збуджується все частіше і частіше, а потім досягає насичення - найвищої частоти стрибків напруги, на яку він здатний, після якої збільшення стимуляції не діє. Нейрон більше нагадує не логічний вентиль, а перетворювач напруги в частоту. Крива залежності частоти від напруги виглядає наступним чином:

Цю схожу на витягнуту букву S криву називають по-різному: логістичної, S-образної, сигмоид. Придивіться до неї уважніше, тому що це найважливіша крива в світі. Спочатку вихід повільно зростає разом з входом: так повільно, що здається постійним. Потім він починає змінюватися швидше, потім дуже швидко, а після все повільніше і повільніше і нарешті знову стає майже постійним. Крива транзистора, яка пов'язує входить і виходить напруга, теж S-образна, тому і комп'ютери, і головний мозок наповнені S-кривими. Але це ще не все. Форму сигмоид мають всілякі фазові переходи: ймовірність, що електрон змінить спин в залежності від прикладеного поля, намагнічування заліза, запис біта пам'яті на жорсткий диск, відкриття іонного каналу в клітці, танення льоду, випаровування води, інфляційний розширення молодому Всесвіті, переривчасте рівновага в еволюції , зміна наукових парадигм, поширення нових технологій, втеча білого населення з змішаних районів, чутки, епідемії, революції, падіння імперій і багато іншого. Книгу The Tipping Point: How Little Things Can Make a Big Difference можна було б (хоча і менш заманливо) назвати «сигмоид». Землетрус - це фазовий перехід у відносному положенні двох прилеглих тектонічних плит, а стукіт, який ми іноді чуємо вночі, - просто зрушення мікроскопічних «тектонічних плит» в стінах будинку, так що не лякайтеся. Йозеф Шумпетер говорив, що економіка розвивається тріщинами і стрибками: творче руйнування теж має S-подібну форму. Фінансові здобутки та втрати теж впливають на людське щастя по сигмоид, тому не варто надмірно надриватися і переживати. Імовірність, що довільна логічна формула буде здійсненним - сама суть NP-повних проблем, - слід фазового переходу від майже одиниці до майже нулю в міру збільшення довжини формули. Статистичні фізики можуть вивчати фазові переходи все життя.

У романі Хемінгуея «І сходить сонце» Майка Кемпбелла запитують, як він збанкрутував, і той відповідає: «Двома способами. Спочатку поступово, а потім відразу ». Те ж саме могли б сказати в банку Lehman Brothers. В цьому суть сигмоид. Одне з правил прогнозування, сформульованих футуристом Полом Саффо, говорить: шукайте S-образні криві. Якщо не виходить «зловити» комфортну температуру в душі - вода спочатку занадто холодна, а потім відразу занадто гаряча, - звинувачуйте S-криву. Розвиток по S-подібної кривої добре видно, коли готуєш повітряну кукурудзу: спочатку нічого не відбувається, потім лопається кілька зерен, потім відразу багато, потім майже все вибухають феєрверком, потім ще трохи - і можна їсти. Рухи м'язів теж слідують сигмоид: повільно, швидко і знову повільно: мультфільми стали набагато природніше, коли діснеївські мультиплікатори зрозуміли це і почали імітувати. За S-кривої рухаються очі, фіксуючи разом зі свідомістю то на одному, то на іншому предметі. Згідно фазового переходу змінюється настрій. Те ж саме з народженням, статевим дозріванням, закоханістю, шлюбом, вагітністю, надходженням на роботу і звільненням, переїздом в інше місто, підвищенням по службі, виходом на пенсію і смертю. Всесвіт - величезна симфонія фазових переходів, від космічних до мікроскопічних, від самих звичайних до змінюють наше життя.

Сигмоїда важлива не просто як модель. В математиці вона працює не покладаючи рук. Якщо наблизити її центральний відрізок, він буде близький прямий. Багато явища, які ми вважаємо лінійними, насправді являють собою S-образні криві, тому що ніщо не може рости нескінченно. В силу відносності і всупереч Ньютону прискорення не збільшується лінійно зі збільшенням сили, а слід за сигмоид, центрованої на нулі. Аналогічна картина спостерігається з залежністю електричного струмувід напруги в резисторах електричних ланцюгіві в лампочках (поки нитка не розплавиться, що само по собі черговий фазовий перехід). Якщо подивитися на S-подібну криву здалеку, вона буде нагадувати ступінчасту функцію, в якій вихід в пороговому значенні раптово змінюється з нуля до одиниці. Тому, в залежності від вхідного напруги, роботу транзистора в цифрових комп'ютерах і аналогових пристроях, наприклад підсилювачах і тюнерах, буде описувати та ж сама крива. Початковий відрізок сигмоид по суті експонентний, а поруч з точкою насичення вона наближається до загасання по експоненті. Коли хтось говорить про експоненційному зростанні, запитайте себе: як скоро він перейде в S-подібну криву? Коли сповільниться вибухове зростання населення, закон Мура вичерпає свої можливості, а сингулярність так і не настане? Диференціюйте сигмоид, і ви отримаєте гауссову криву: «повільно - швидко - повільно» перетвориться в «низько - високо - низько». Додайте послідовність східчастих S-образних кривих, що йдуть то вгору, то вниз, і вийде щось близьке до синусоїді. Насправді кожну функцію можна близько апроксимувати сумою S-образних кривих: коли функція йде вгору, ви додаєте сигмоид, коли вниз - відбираєте. Навчання дитини - це не поступове поліпшення, а накопичення S-образних кривих. Це відноситься і до технологічних змін. Погляньте на Нью-Йорк видали, і ви побачите, як уздовж горизонту розгортається сукупність сигмоид, гострих, як кути хмарочосів.

Для нас найголовніше те, що S-образні криві ведуть до нового вирішення проблеми коефіцієнтів довіри. Раз Всесвіт - це симфонія фазових переходів, давайте змоделюємо її за допомогою фазового переходу. Саме так чинить головний мозок: підлаштовує систему фазових переходів усередині до аналогічної системи зовні. Отже, давайте замінимо ступінчасту функцію перцептрону сигмоид і подивимося, що станеться.

Альпінізм в гіперпросторі

В алгоритмі перцептрону сигнал помилки діє за принципом «все або нічого»: або правильно, або неправильно. Не густо, особливо в разі мереж з багатьох нейронів. Можна зрозуміти, що помилився нейрон на виході (ой, це була не ваша бабуся?), Але як щодо якогось нейрона в глибинах мозку? І взагалі, що означають правота і помилка для глибинного нейрона? Однак якщо вихід нейрона безперервний, а не бінарний, картина змінюється. Перш за все ми можемо оцінити, наскількипомиляється вихідний нейрон, по різниці між одержуваним і бажаним виходом. Якщо нейрон повинен іскрити активністю ( «Ой, бабуся! Привіт!») І він трохи активний, це краще, ніж якби він не спрацьовував зовсім. Ще важливіше те, що тепер можна поширити цю помилку на приховані нейрони: якщо вихідний нейрон повинен бути більш активними і з ним пов'язаний нейрон A, То чим більш активний нейрон A, Тим більше ми повинні посилити з'єднання між ними. якщо Aпригнічується нейроном B, то Bповинен бути менш активним і так далі. Завдяки зворотного зв'язку від всіх нейронів, з якими він пов'язаний, кожен нейрон вирішує, наскільки більше або менше треба активуватися. Це, а також активність його власнихвхідних нейронів диктує йому, посилювати чи послаблювати з'єднання з ними. Мені треба бути більш активними, а нейрон Bмене пригнічує? Значить, його вага треба знизити. А нейрон Cдуже активний, але його з'єднання зі мною слабке? Посилимо його. У наступному раунді нейрони- «клієнти», розташовані далі в мережі, підкажуть, наскільки добре я впорався із завданням.

Всякий раз, коли «сітківка» того, хто навчається алгоритму бачить новий образ, сигнал поширюється по всій мережі, поки не дасть вихід. Порівняння отриманого виходу з бажаним видає сигнал помилки, який потім поширюється назад через всі шари і досягає сітківки. На основі повертається сигналу і вступних, отриманих під час проходження вперед, кожен нейрон коригує ваги. У міру того як мережа бачить все нові і нові зображення вашої бабусі і інших людей, ваги поступово сходяться зі значеннями, які дозволяють відрізнити одне від іншого. Метод зворотного поширення помилки, як називається цей алгоритм, незрівнянно могутніше перцептрону. Одиничний нейрон може знайти тільки пряму лінію, а так званий багатошаровий перцептрон - довільно заплутані кордону, за умови що у нього є достатньо прихованих нейронів. Це робить зворотне поширення помилки верховним алгоритмом коннекціоністов.

Зворотне поширення - окремий випадок стратегії, дуже поширеною в природі і в технології: якщо вам треба швидко забратися на гору, вибирайте самий крутий схил, який тільки знайдете. Технічний термін для цього явища - «градиентное сходження» (якщо ви хочете потрапити на вершину) або «градієнтний спуск» (якщо дивитися на долину внизу). Бактерії вміють шукати їжу, переміщаючись згідно градієнту концентрації, скажімо, глюкози, і тікати від отрут, рухаючись проти їх градієнта. За допомогою градієнтного спуску можна оптимізувати масу речей, від крил літаків до антенних систем. Зворотне поширення - ефективний спосіб такої оптимізації в багатошаровому перцептроном: продовжуйте коригувати ваги, щоб знизити можливість помилки, і зупиніться, коли стане очевидно, що коригування нічого не дають. У разі зворотного поширення не треба розбиратися, як з нуля корегувати вагу кожного нейрона (це було б надто повільно): це можна робити шар за шаром, налаштовуючи кожен нейрон на основі вже налаштованих, з якими він з'єднаний. Якщо в надзвичайної ситуаціївам доведеться викинути весь інструментарій машинного навчання і врятувати щось одне, ви, ймовірно, вирішите врятувати градієнтний спуск.

Так як же зворотне поширення вирішує проблему машинного навчання? Може бути, треба просто зібрати купу нейронів, почекати, поки вони начаклують все, що треба, а потім по дорозі в банк заїхати отримати Нобелівську премію за відкриття принципу роботи мозку? На жаль, в житті все не так просто. Уявіть, що у вашій мережі тільки один вага; залежність помилки від нього показана на цьому графіку:

Оптимальна вага, в якому помилка найнижча, - це 2,0. Якщо мережа почне роботу, наприклад, з 0,75, зворотне поширення помилки за кілька кроків прийде до оптимуму, як котиться з гірки м'ячик. Однак якщо почати з 5,5, ми скотимся до ваги 7,0 і застрянемо там. Зворотне поширення помилки зі своїми поетапними змінами ваг не зможе знайти глобальний мінімум помилки, а локальні мінімуми можуть бути як завгодно поганими: наприклад, бабусю можна переплутати з капелюхом. Якщо вага всього один, можна перепробувати всі можливі значення c кроком 0,01 і таким чином знайти оптимум. Але коли ваг тисячі, не кажучи вже про мільйони або мільярди, це не варіант, тому що число точок на сітці буде збільшуватися експоненціально з числом ваг. Глобальний мінімум виявиться прихований десь в бездонних глибинах гіперпростору - шукай голку в стозі сіна.

Уявіть, що вас викрали, зав'язали очі і кинули десь в Гімалаях. Голова розколюється, з пам'яттю не дуже, але ви твердо знаєте, що треба забратися на вершину Евересту. Як бути? Ви робите крок вперед і ледь не скочується в ущелину. Перевівши дух, ви вирішуєте діяти систематичніше і обережно обмацувати ногою грунт навколо, щоб визначити найвищу точку. Потім ви боязко крокуєте до неї, і все повторюється. Потроху ви забираєте все вище і вище. Через якийсь час будь-який крок починає вести вниз, і ви зупиняєтеся. Це градиентное сходження. Якби в Гімалаях існував один Еверест, причому ідеальної конічної форми, все було б чудово. Але, швидше за все, місце, де всі кроки ведуть вниз, буде все ще дуже далеко від вершини: ви просто застрягнете на якомусь пагорбі біля підніжжя. Саме це відбувається зі зворотним поширенням помилки, тільки на гори воно підіймається в гіперпросторі, а не в тривимірному просторі, як наше. Якщо ваша мережа складається з одного нейрона і ви будете крок за кроком підніматися до найкращих ваг, то прийдете до вершини. Але в багатошаровому перцептроном ландшафт дуже порізаний - піди знайди найвищий пік.

Почасти тому Мінський, Пейперт і інші дослідники не розуміли, як можна навчати багатошарові перцептрони. Вони могли уявити собі заміну східчастих функцій S-образними кривими і градієнтний спуск, але потім стикалися з проблемою локальних мінімумів помилки. У той час вчені не довіряли комп'ютерним симуляціям і вимагали математичних доказів працездатності алгоритму, а для зворотного поширення помилки такого докази не було. Але, як ми вже бачили, в більшості випадків локального мінімуму необхідний. Поверхня помилки часто схожа на дикобраза: багато крутих піків і западин, і насправді неважливо, чи знайдемо ми найглибшу, абсолютну западину - зійде будь-яка. Ще краще те, що локальний мінімум буває навіть краще, тому що він менше схильний до перенавчання, ніж глобальний.

Гіперпростір - двосічний меч. З одного боку, чим більше кількістьвимірювань, тим більше місця для дуже складних поверхонь і локальних екстремумів. З іншого боку, щоб застрягти в локальному екстремуму, треба застрягти у всіхвимірах, а в багатьох одночасно застрягти складніше, ніж в трьох. У гіперпросторі є перевали, що проходять через всю (гіпер) місцевість, тому з невеликою допомогою з боку людини зворотне поширення помилки найчастіше здатне знайти шлях до ідеально хорошому набору ваг. Може бути, це не рівень моря, а тільки легендарна долина Шангрі-Ла, але на що скаржитися, якщо в гіперпросторі мільйони таких долин і до кожної ведуть мільярди перевалів?

Проте надавати занадто велике значення ваг, які знаходить зворотне поширення помилки, не варто. Пам'ятайте, що є, ймовірно, багато дуже різних, але однаково хороших варіантів. Навчання багатошарового перцептрона хаотично в тому сенсі, що, почавши з злегка відрізняються місць, він може привести до вельми різним рішенням. Цей феномен проявляється в разі незначних відмінностей як в вихідних вагах, так і в навчальних даних і має місце в усіх потужних навчаються алгоритмах, а не тільки в зворотному поширенні помилки.

ми могли бпозбутися проблеми локальних екстремумів, прибравши наші сигмоид і дозволивши кожному нейрону просто видавати зважену суму своїх входів. Поверхня помилки стала б в цьому випадку дуже гладкою, і залишився б усього один мінімум - глобальний. Справа, однак, в тому, що лінійна функція лінійних функцій- як і раніше лінійна функція, тому мережа лінійних нейронів нічим не краще, ніж одиничний нейрон. Лінійний мозок, яким би великим він не був, буде дурніші черв'яка. S-образні криві - просто хороший перевалочний пункт між дурістю лінійних функцій і складністю східчастих функцій.

Перцептрони завдають удару у відповідь

Метод зворотного поширення помилки був винайдений в 1986 році Девідом Румельхартом, психологом з Каліфорнійського університету в Сан-Дієго, у співпраці з Джеффом Хінтон і Рональдом Вільямсом. Вони довели, крім усього іншого, що зворотне поширення здатне впоратися з виключає АБО, і тим самим дали коннекціоністам можливість показати язик Мінському і Пейперт. Згадайте приклад з кросівками Nike: підлітки і жінки середнього віку - їх найбільш ймовірні покупці. Це можна уявити за допомогою мережі з трьох нейронів: один спрацьовує, коли бачить підлітка, інший - жінку середнього віку, а третій - коли активізуються обидві. Завдяки зворотному поширенню помилки можна дізнатися відповідні ваги і отримати успішний детектор передбачуваних покупців Nike. (Ось так-то, Марвін.)

У перших демонстраціях мощі зворотного поширення Террі Сейновскі і Чарльз Розенберг навчали багатошаровий перцептрон читати вголос. Їх система NETtalk сканувала текст, підбирала фонеми згідно контексту і передавала їх в синтезатор мови. NETtalk не тільки робив правильні узагальнення для нових слів, чого не вміли системи, засновані на знаннях, а й навчився говорити дуже схоже на людину. Сейновскі любив зачаровувати публіку на наукових заходах, пускаючи запис навчання NETtalk: спочатку лепет, потім щось більш виразне і нарешті цілком гладка мова з окремими помилками. (Пошукайте приклади на YouTube за запитом sejnowski nettalk.)

Першим великим успіхом нейронних мереж стало прогнозування на фондовій біржі. Оскільки мережі вміють виявляти маленькі нелінійності в дуже зашумлених даних, вони набули популярності і витіснили поширені в фінансах лінійні моделі. Типовий інвестиційний фонд тренує мережі для кожної з численних цінних паперів, потім дозволяє вибрати найбільш багатообіцяючі, після чого люди-аналітики вирішують, в яку з них інвестувати. Однак ряд фондів пішов до кінця і дозволив алгоритмам машинного навчання здійснювати покупки і продажу самостійно. Скільки саме з них досягло успіху - таємниця за сімома печатками, але, оскільки фахівці з навчаються алгоритмам в страхітливому темпі зникають в надрах хеджевих фондів, ймовірно, в цьому щось є.

Нелінійні моделі важливі далеко не тільки на фондовій біржі. Вчені повсюдно використовують лінійну регресію, тому що добре її знають, але досліджувані явища частіше нелінійні, і багатошаровий перцептрон вміє їх моделювати. Лінійні моделі бачить фазових переходів, а нейронні мережі вбирають їх як губка.

Іншим помітним успіхом ранніх нейронних мереж стало навчання водінню машини. Безпілотні автомобілі вперше привернули загальну увагу на змаганнях DARPA Grand Challenge в 2004-му і 2005 роках, але за десять з гаком років до цього вчені Університету Карнегі-Меллон успішно навчили багатошаровий перцептрон водити машину: дізнаватися дорогу на відео і повертати кермо в потрібному місці. З невеликою допомогою людини - другого пілота - цей автомобіль зумів проїхати через всі Сполучені Штати від океану до океану, хоча «зір» у нього було дуже каламутне (30 × 32 пікселя), а мозок менше, ніж у черв'яка. (Проект назвали No Hands Across America.) Може бути, це не була перша по-справжньому безпілотна машина, але навіть вона вигідно відрізнялася від більшості підлітків за кермом.

У методу зворотного поширення помилки незліченна кількість застосувань. У міру того як росла його слава, ставало все більше відомо про його історії. Виявилося, що, як це часто буває в науці, метод винаходили кілька разів: французький інформатик Ян Лекун і інші вчені натрапили на нього приблизно в той же час, що і Румельхарт. Ще в 1980-і роки повідомлення про методі зворотного поширення відхилили на провідній конференції з проблем штучного інтелекту, тому що, на думку рецензентів, Мінський і Пейперт довели, що перцептрони не працюють. Взагалі кажучи, Румельхарт вважається винахідником методу швидше за «тесту Колумба»: Колумб не був першим людиною, який відкрив Америку, але він був останнім. Виявилося, що Пол Вербос, аспірант Гарвардського університету, запропонував схожий алгоритм у своїй дисертації в 1974 році, а найбільша іронія в тому, що Артур Брайсон і Хе Юці, фахівці з теорії управління, домоглися цього в 1969 році - саме коли Мінський і Пейперт публікували свою книгу Perceptrons! Так що сама історія машинного навчання показує, навіщо нам потрібні навчаються алгоритми: якби алгоритми автоматично виявили, що статті по темі є в науковій літературі з 1969 року, ми б не витратили даремно десятиліття, і хто знає, які відкриття були б зроблені швидше.

В історії перцептрону багато іронії, але сумно те, що Френк Розенблат так і не побачив другого акту свого творіння: він потонув в Чесапікській затоці в тому ж 1969 році.

Повна модель клітини

Жива клітина - прекрасний приклад нелінійної системи. Вона виконує всі свої функції завдяки складній мережі хімічних реакцій, що перетворюють сировину в кінцеві продукти. Як ми бачили в попередньому розділі, структуру цієї мережі можна відкрити символістськими методами, наприклад зворотного дедукцією, але для побудови повної моделі роботи клітини потрібен кількісний підхід: треба дізнатися параметри, які пов'язують рівень експресії різних генів, співвідносять змінні навколишнього середовища з внутрішніми змінними і так далі. Це непросто, тому що між цими величинами немає простої лінійної залежності. Свою стабільність клітина швидше підтримує завдяки пересічних петель зворотного зв'язку, і її поведінка дуже складно. Для вирішення цієї проблеми добре підходить метод зворотного поширення помилки, яка здатна ефективно навчатися нелінійним функцій. Якби у нас в руках була повна карта метаболічних ланцюжків і ми мали достатніми даними спостережень за всіма відповідними змінними, зворотне поширення теоретично могло б отримати детальну модель клітини і багатошаровий перцептрон передбачав би будь-яку змінну як функцію її безпосередніх причин.

Однак в доступному для огляду майбутньому у нас буде тільки часткове розуміння клітинного метаболізму і ми зможемо спостерігати лише частку корисних властивостей. Для отримання корисних моделей в умовах нестачі інформації і неминучих протиріч потрібні байєсовські методи, в які ми зануримося в розділі 6. Те ж стосується прогнозів для конкретного пацієнта, якщо модель вже є: байесовский висновок витягне максимум з неминуче неповною і зашумленной картини. Добре те, що для лікування раку не обов'язково розуміти функціонування пухлинних клітин повністю і у всіх подробицях: досить просто знешкодити їх, не пошкоджуючи нормальні клітини. У розділі 6 ми побачимо, як правильно зорієнтувати навчання, обходячи те, чого ми не знаємо і не обов'язково повинні знати.

На нинішньому етапі нам відомо, що на основі даних і попереднього знання можна за допомогою зворотного дедукції зробити висновок про структуру клітинних мереж, однак кількість способів його застосування породжує комбінаторний вибух, так що потрібно якась стратегія. Оскільки метаболічні мережі були розроблені еволюцією, можливо, симулювання еволюції в учнів алгоритмах якраз підійде. У наступному розділі ми подивимося, як це зробити.

У глибинах мозку

Коли метод зворотного поширення помилки «пішов у народ», коннекціоністи малювали в уяві швидке навчаннявсе більших і більших мереж до тих пір, поки, якщо дозволить «залізо», вони не зрівняються з штучним мозком. Виявилося, все не так. Навчання мереж з одним прихованим шаром проходило добре, але після цього все різко ускладнювалося. Мережі з декількома шарами працювали тільки в разі, якщо їх ретельно розробляли під конкретне застосування (скажімо, розпізнавання символів), а за межами цих рамок метод зворотного поширення зазнавав невдачі. У міру додавання шарів сигнал помилки розходився все більше і більше, як річка, розгалужені на дрібні протоки аж до окремих непомітних крапельок. Навчання з десятками і сотнями прихованих шарів, як в мозку, залишалося віддаленій мрією, і до середини 1990-х захоплення з приводу багатошарових перцептронів вщухли. Стійке ядро ​​коннекціоністов не здавалося, але в цілому увага перемістилася в інші області машинного навчання (ми побачимо їх в розділах 6 і 7).

Однак сьогодні коннекціонізм відроджується. Ми навчаємо глибші мережі, ніж коли б то не було, і вони задають нові стандарти в зорі, розпізнаванні мови, розробці лікарських засобів і інших сферах. Нова область- глибоке навчання - з'явилася навіть на першій сторінці New York Times, але, якщо заглянути під капот, ми з подивом побачимо, що там гуде все той же старий добрий двигун - метод зворотного поширення помилки. Що змінилося? В общем-то, нічого нового, скажуть критики: просто комп'ютери стали швидше, а даних cтало більше. На це Хінтон і інші скажуть: «Саме так! Ми були абсолютно праві! »

По правді кажучи, коннекціоністи домоглися великих успіхів. Одним з героїв останнього зльоту на американських гірках коннекціонізма стало невибагливе маленький пристрій під назвою автокодіровщік - багатошаровий перцептрон, який на виході видає той же, що отримав на вході. Він отримує зображення вашої бабусі і видає ту ж саму картинку. На перший погляд це може здатися безглуздою витівкою: де взагалі можна застосувати цю штуку? Але вся суть у тому, щоб прихований шар був набагато менше, ніж вхідний і вихідний, тобто щоб мережа не могла просто навчитися копіювати вхід в прихований шар, а прихований шар - у вихідний, тому що в такому випадку пристрій взагалі нікуди не годиться. Однак якщо прихований шар маленький, відбувається цікава річ: мережа змушена кодувати вхід лише кількома бітами, щоб представити його в прихованому шарі, а потім ці біти декодируются назад до повного розміру. Система може, наприклад, навчитися кодувати що складається з мільйона пікселів зображення бабусі всього лише сім'ю літерами - словом «бабуся» - або якимось коротким кодом власного винаходу і одночасно навчитися розкодувати це слово в картинку милою вашому серцю пенсіонерки. Таким чином, автокодіровщік схожий на інструмент для стиснення файлів, але має дві переваги: ​​сам розбирається, як треба стискати, і, як мережі Хопфілда, вміє перетворювати зашумлене, спотворене зображення в хороше і чисте.

Автокодіровщікі були відомі ще в 1980-х, але тоді їх було дуже складно вчити, незважаючи на все один прихований шар. Розібратися, як упакувати великий обсяг інформації в жменю бітів, - біса складна проблема (один код для вашої бабусі, трохи інший - для дідуся, ще один - для Дженніфер Еністон і так далі): ландшафт гіперпростору занадто порізаний, щоб забратися на хороший пік, а приховані елементи повинні дізнатися, з чого складається надлишок виключають АБО на вході. Через ці проблем автокодіровщікі тоді по-справжньому не прижились. Щоб подолати складності, треба було більше десятиліття. Був придуманий наступний трюк: прихований шар треба зробити більше, ніж вхідний і вихідний. Що це дасть? Насправді це тільки половина рішення: друга частина - змусити всі, крім деякої кількості прихованих одиниць, бути виключеними в даний момент. Це все ще не дозволяє прихованого шару просто копіювати вхід і, що найголовніше, сильно полегшує навчання. Якщо ми дозволимо різним бітам представляти різні входи, входи перестануть конкурувати за настройку одних і тих же бітів. Крім того, у мережі з'явиться набагато більше параметрів, тому у гіперпростору буде набагато більше вимірів, а отже, і способів вибратися з того, що могло б стати локальними максимумами. Цей витончений трюк називається розрідженим автокодіровщіком.

Однак по-справжньому глибокого навчання ми поки не бачили. Наступна хитра ідея - поставити розріджені автокодіровщікі один на одного, як великий сендвіч. Прихований шар першого стає входом / виходом для другого і так далі. Оскільки нейрони нелінійні, кожен прихований шар вчиться складнішим уявленням входу, грунтуючись на попередньому. Якщо є великий набір зображень облич, перший автокодіровщік навчиться кодувати дрібні елементи, наприклад куточки і точки, другий використовує це для кодування рис обличчя, наприклад кінчика носа і райдужки ока, третій займеться цілими носами і очима і так далі. Нарешті, верхній шар може бути традиційним перцептроном - він навчиться впізнавати вашу бабусю за рисами високого рівня, які дає ніжній шар. Це набагато легше, ніж використовувати тільки сирі дані одного прихованого шару або намагатися провести зворотне поширення відразу через всі шари. Мережа Google Brain, прорекламована New York Times, являє собою бутерброд з дев'яти шарів автокодіровщіков та інших інгредієнтів, який вчиться пізнавати кішок на відеороликах на YouTube. На той момент ця мережа була найбільшою, яку коли-небудь навчали: в ній був мільярд з'єднань. Не дивно, що Ендрю Ин, один з керівників проекту, - гарячий прихильник ідеї, що людський розум зводиться до одного алгоритму і досить просто його знайти. Ин, за ввічливими манерами якого ховається неймовірна амбітність, переконаний, що багатоярусні розріджені автокодіровщікі можуть привести нас ближче до розгадки штучного інтелекту, ніж все, що ми мали раніше.

Багатоярусні автокодіровщікі - не єдина різновид глибоких навчаються алгоритмів. Ще одна заснована на машинах Больцмана, зустрічаються моделі зорової кори на згортальних нейронних мережах. Однак, незважаючи на чудові успіхи, все це поки що дуже далеко від головного мозку. Мережа Google вміє розпізнавати котячі мордочки тільки анфас, а людина дізнається кота в будь-якій позі, навіть якщо той взагалі відвернеться. Крім того, мережа Google все ще досить дрібна: автокодіровщікі складають всього три з дев'яти її шарів. Багатошаровий перцептрон - задовільна модель мозочка - частини мозку, відповідальної за низькорівневий контроль рухів. Однак кора головного мозку - зовсім інша справа. У ній немає, наприклад, зворотних зв'язків, необхідних для поширення помилки, і тим не менше саме в корі відбувається справжнє диво навчання. У своїй книзі On Intelligence ( «Про інтелекті») Джефф Хокінс відстоює розробку алгоритмів, заснованих на близькому відтворенні будови кори головного мозку, але жоден з цих алгоритмів поки не може змагатися з сьогоднішніми глибокими мережами.

У міру того як ми будемо краще розуміти мозок, ситуація може змінитися. Натхненна проектом «Геном людини», нова дисципліна- коннектоміка - прагне скласти карту всіх мозкових синапсів. В побудова повноцінної моделі Євросоюз вклав мільярди євро, а американська програма BRAIN, що має схожі цілі, тільки в 2014 році отримала 100 мільйонів доларів фінансування. Проте символісти дуже скептично дивляться на цей шлях до Верховного алгоритму. Навіть якщо ми будемо уявляти собі весь мозок на рівні окремих синапсів, знадобляться (яка іронія) більш досконалі алгоритми машинного навчання, щоб перетворити цю картину в монтажні схеми: про те, щоб зробити це вручну, не може бути й мови. Гірше те, що, навіть отримавши повну карту головного мозку, ми все ще будемо губитися в здогадах, як він працює. Нервова система хробака Caenorhabditis elegans, що складається всього з 302 нейронів, була повністю картірован ще в 1986 році, проте ми як і раніше розуміємо її роботу лише фрагментарно. Щоб щось зрозуміти в болоті дрібних деталей і «виполоти» специфічні для людини подробиці і просто примхи еволюції, потрібні більш високорівневі концепції. Ми не будуємо літаки шляхом зворотної інженерії пташиного пір'я, і ​​літаки не махають крилами, проте в основі конструкції літака лежать принципи аеродинаміки, єдині для всіх літаючих об'єктів. Аналогічних принципів мислення ми все ще не маємо.

Може бути, коннектоміка впадає в крайнощі: деякі коннекціоністи, за чутками, стверджують, що метод зворотного поширення і є Верховний алгоритм: треба просто збільшити масштаб. Але символісти висміюють ці погляди і пред'являють довгий перелік того, що люди робити вміють, а нейронні мережі - немає. Взяти хоча б «здоровий глузд», що вимагає з'єднувати фрагменти інформації, до цього, може бути, ніколи і поруч не стояли. Їсть чи Марія на обід черевики? Не їсть, тому що вона людина, люди їдять тільки їстівні речі, а черевики неїстівні. Символічні системи справляються з цим без проблем - вони просто складають ланцюжки відповідних правил, - а багатошарові перцептрони цього робити не вміють і, навчившись, будуть раз по раз обчислювати одну і ту ж фіксовану функцію. Нейронні мережі - НЕ композиційні, а композиційно - суттєвий елемент людського пізнання. Ще одна велика проблема в тому, що і люди, і символічні моделі, наприклад набори правил і дерева рішень, здатні пояснювати хід своїх міркувань, в той час як нейронні мережі - великі гори чисел, які ніхто не може зрозуміти.

Але якщо у людини є всі ці здібності і мозок не вивчає їх шляхом підбору синапсів, звідки вони беруться? Ви не вірите в диво? Тоді відповідь - «еволюція». Переконаний критик коннекціонізма просто зобов'язаний розібратися, звідки еволюція дізналася все, що дитина знає при народженні, - і чим більше ми списуємо на вроджені навички, тим важче завдання. Якщо вийде все це зрозуміти і запрограмувати комп'ютер виконувати таке завдання, буде дуже нечемно відмовляти вам у лаврах винахідника Верховного алгоритму - принаймні, одного з його варіантів.

Нейрит (довгий циліндричний відросток нервової клітини), по якому передаються вихідні сигнали (нервові імпульси) від тіла клітини до иннервируемой органам і іншим нервовим клітинам.

Вільям Джеймс (William James, 1842-1910) - американський філософ і психолог, один із засновників і провідний представник прагматизму і функціоналізму.

Френк Розенблат (Frank Rosenblatt, 1928-1969) - відомий американський вчений у галузі психології, нейрофізіології і штучного інтелекту.

Йозеф Алоїз Шумпетер (Joseph Alois Schumpeter, 1883-1950) - австрійський і американський економіст, політолог, соціолог і історик економічної думки.

Рональд Вільямс (Ronald Williams) - професор інформатики Північно-Східного університету в Бостоні, один з піонерів нейронних мереж.

Змагання автомобілів-роботів, що фінансуються урядом США. Мета цих змагань - створення повністю автономних транспортних засобів.

Американська актриса, найбільш відома як виконавиця ролі Рейчел Грін у телевізійному серіалі «Друзі», за яку вона була удостоєна премій «Еммі» і «Золотий глобус».