Pagina curentă: 1 (totalul cărții are 30 de pagini) [pasaj disponibil pentru citire: 7 pagini]

Pedro Domingos
Algoritmul Suprem: Cum ne va schimba lumea învățarea automată

Pedro Domingos

Algoritmul Maestru

Cum căutarea mașinii supreme de învățare va reface lumea noastră


Editori științifici Alexander Sboev, Alexey Serenko


Publicat cu permisiunea lui Pedro Domingos c/o Levine Greenberg Rostan Literary Agency și Synopsis Literary Agency


Suportul juridic al editurii este asigurat de firmă de avocatură Vegas Lex.


© Pedro Domingos, 2015

© traducere rusă, ediție rusă, design. SRL „Mann, Ivanov și Ferber”, 2016

* * *

Această carte este bine completată de:

Inteligență artificială

Nick Bostrom


Frumusețea pătrat

Alex Bellos


Teoria jocului

Avinash Dixit și Barry Neilbuff

Pentru binecuvântată amintire a surorii mele Rita, care a pierdut lupta cu cancerul când scriam această carte

Cea mai mare sarcină a științei este să explice cât mai multe fapte experimentale prin deducție logică, pornind de la cât mai puține ipoteze și axiome.

Albert Einstein

Progresul civilizației constă în creșterea numărului de acțiuni importante pe care le realizăm fără să ne gândim.

Alfred North Whitehead

Prolog

Învățarea automată este peste tot în jurul tău, deși este posibil să nu fii conștient de asta. Prin învățarea automată, motorul de căutare înțelege ce rezultate (și anunțuri) să apară ca răspuns la întrebarea dvs. Când te uiți la poșta ta, majoritatea spam-ul vă trece deoarece a fost filtrat de învățarea automată. Indiferent dacă cumpărați ceva de pe Amazon.com sau verificați Netflix pentru a viziona un film, învățarea automată vă va sugera util opțiuni care v-ar putea plăcea. Folosind învățarea automată, Facebook decide ce știri să îți arate, iar Twitter selectează tweet-urile corespunzătoare. Ori de câte ori utilizați un computer, este foarte probabil să fie implicat undeva. învățare automată.

Singura modalitate de a face computerul să facă orice - de la adăugarea a două numere până la pilotarea unui avion - a fost să scrie un fel de algoritm care să explice meticulos mașinii exact ce i se cere. Cu toate acestea, algoritmii de învățare automată sunt o chestiune complet diferită: ei ghicesc totul ei înșiși, trag concluzii din date și cu cât sunt mai multe date, cu atât devin mai bune. Aceasta înseamnă că computerele nu trebuie să fie programate: se programează singure.

Acest lucru este adevărat nu numai în spațiul cibernetic: învățarea automată pătrunde întreaga noastră viață, de la trezire până la culcare.

Sapte dimineata. Ceasul cu alarmă pornește radioul. Muzică necunoscută, dar foarte plăcută este redată: datorită serviciului Pandora 1
Streaming media pe Internet. Utilizatorul playerului media Pandora selectează un artist muzical, după care sistemul caută melodii similare folosind aproximativ 400 de caracteristici muzicale. Folosind funcțiile „mi place” sau „nu-mi place”, ascultătorul poate deseori să acorde „stația de radio” după bunul său plac. În continuare, dacă nu se indică altfel, cca. ed.

Radioul a ajuns să vă cunoască gusturile și s-a transformat într-un „Dj personal”. Este posibil ca melodia în sine să se fi născut și folosind învățarea automată. La micul dejun răsfoiești ziarul de dimineață. Cu câteva ore mai devreme, ea a părăsit presa, care fusese atent reglată cu un algoritm de învățare pentru a elimina defectele tipografice. Camera are o temperatură excepțional de confortabilă și facturile de energie electrică nu mușcă pentru că pui termostatul inteligent Nest.

În drum spre serviciu, mașina reglează în mod constant injecția de combustibil și recircularea gazelor de eșapament pentru a menține costurile cu benzina la minimum. În orele de vârf, Inrix, un sistem de predicție a traficului, economisește timp, ca să nu mai vorbim de nervi. La locul de muncă, învățarea automată vă ajută să combateți supraîncărcarea de informații: utilizați un cub de date 2
Arhitectură de date puternică pentru agregarea rapidă a informațiilor multidimensionale. Cubul de date poate fi implementat pe baza unor baze de date relaționale universale sau software specializat.

Pentru a rezuma o cantitate mare de informații, priviți-o din unghiuri diferite și studiați în detaliu toate cele mai importante. Dacă trebuie să decideți ce aspect al site-ului - A sau V- va atrage mai multi potentiali clienti, sistemul instruit va testa ambele optiuni si va va furniza un raport. Trebuie să te uiți pe site-ul unui potențial furnizor și el este activ limbă străină? Nicio problemă: Google îl va traduce automat pentru dvs. E-mailuri sortate convenabil în dosare și doar cele mai importante rămân în Inbox. Procesorul de text verifică gramatica și ortografia pentru dvs. Ați găsit un zbor pentru următoarea călătorie de afaceri, dar încă nu cumpărați un bilet, deoarece, potrivit Bing Travel, prețurile vor fi în curând mai mici. Fără să-ți dai seama, faci multe în fiecare oră. mai multă muncă decât ar putea fără ajutorul învățării automate.

În timpul liber, verifici cum sunt investițiile tale în fondul mutual de investiții. Majoritatea acestor fonduri folosesc algoritmi de învățare pentru a selecta acțiuni promițătoare, iar unul dintre ei este complet controlat de un sistem de învățare automată. În timpul prânzului, ieși și te gândești unde să mănânci. Sistemul de învățare Yelp din smartphone-ul tău te va ajuta. Telefoanele mobile sunt în general pline la capacitate maximă cu algoritmi de învățare care corectează neobosit greșelile de scriere, recunosc comenzile vocale, corectează erorile de transmisie a datelor, citesc coduri de bare și fac multe alte lucruri utile. Smartphone-ul chiar a învățat să ghicească următoarea ta acțiune și să ofere sfaturi utile... De exemplu, vă va spune că întâlnirea va începe mai târziu, deoarece avionul în care ar trebui să zboare oaspetele dvs. are întârziere.

Dacă termini de lucru noaptea târziu, învățarea automată te va ajuta să ajungi la mașină în parcare fără incidente: algoritmii monitorizează video de la o cameră de securitate și avertizează de la distanță paznicii când observă ceva suspect. Să presupunem că oprești într-un supermarket în drum spre casă. Produsele de pe rafturi sunt aranjate conform instructiunilor algoritmilor cu antrenament: ei sunt cei care decid ce produse sunt cele mai bune de comandat, ce sa puna la capatul randului si unde sa fie salsa - in departamentul de sosuri sau lângă chipsuri de tortilla. La casă, plătiți cu cardul de credit. La un moment dat, algoritmul antrenat a decis că trebuie să trimiteți o ofertă pentru a o emite și apoi a aprobat cererea dvs. Un alt algoritm caută constant tranzacții suspecte și cu siguranță te va avertiza dacă i se pare că numărul cardului a fost furat. Al treilea algoritm încearcă să-și dea seama cât de mulțumit ești. Dacă sunteți un client bun, dar arăți nemulțumit, vi se va trimite o ofertă îndulcită înainte de a merge la competiție.

Întors acasă, te duci la cutia poștală și găsești acolo o scrisoare de la un prieten. A fost livrat datorită unui algoritm care a învățat să citească adresele scrise de mână. Pe langa scris, cutia contine maculatura obisnuita, selectata si pentru tine prin algoritmi cu antrenament (nu poti face nimic). Te oprești pentru o clipă să respiri aerul proaspăt al serii. Numărul infractorilor din oraș a scăzut dramatic de când poliția a început să folosească formarea statistică pentru a prezice probabilitatea crimei și a trimite patrule în zonele cu probleme. Cină cu familia și te uiți la televizor. Primarul este la știri. L-ai votat pentru că în ziua alegerilor te-a sunat personal. El ți-a fost semnalat de un algoritm de învățare care a văzut în tine un alegător cheie indecis. După cină poți urmări fotbal. Ambele echipe au egalat jucători folosind pregătirea statistică. Sau este mai bine să te joci cu copiii pe Xbox? În acest caz, algoritmul de învățare din Kinect va urmări poziția și mișcarea corpului dumneavoastră. Înainte de a merge la culcare, iei un medicament conceput și testat folosind algoritmi de învățare. Este posibil ca chiar și medicul dumneavoastră să fi folosit învățarea automată pentru a pune un diagnostic, de la interpretarea unei radiografii până la o concluzie bazată pe un set neobișnuit de simptome.

Învățarea automată își face treaba în toate etapele vieții umane. Dacă studiai pentru examene de facultate folosind internetul, un algoritm special a calificat eseurile de test. Și dacă te-ai înscris recent la școala de afaceri și ai luat GMAT 3
GMAT (Graduate Management Admission Test) este un test standardizat pentru a determina capacitatea de a studia cu succes în școlile de afaceri.

Sistemul de învățare a fost unul dintre examinatorii care notau eseuri. Poate că atunci când ați aplicat pentru un loc de muncă, un algoritm instruit a scos CV-ul din „morda virtuală” și a spus potential angajator: „Uite, iată un candidat puternic.” Este probabil să vă datorați și un algoritm învățat creșterii salariale recente. Dacă doriți să cumpărați o casă, Zillow.com va evalua fiecare opțiune care vă interesează. Când decideți să luați un credit ipotecar, un algoritm de învățare automată va examina cererea și va recomanda aprobarea (sau respinsă). Și poate cel mai important, dacă ești interesat de întâlnirile online, învățarea automată te poate ajuta să găsești dragostea adevărată.

Societatea se schimbă cu fiecare algoritm nou. Învățarea automată transformă știința, tehnologia, afacerile, politica, artele marțiale. Sateliții și acceleratorii de particule cercetează natura din ce în ce mai amănunțit, iar algoritmii de învățare transformă râurile de date în noi cunoștințe științifice. Companiile își cunosc clienții ca niciodată. Candidații care sunt mai capabili să modeleze comportamentul alegătorilor câștigă alegerile (de exemplu, Obama vs. Romney 4
Willard Mitt Romney (născut în 1947) este un politician american. A fost candidatul GOP la președinție la alegerile din 2012.

). Vehiculele fără pilot cuceresc pământul, apa și aerul. Nimeni nu introduce informații despre gusturile noastre în sistemul de recomandare Amazon: algoritmul de învățare le determină singur, rezumând informațiile despre achizițiile efectuate. Mașina Google care se conduce singur a învățat să nu părăsească drumul: niciun inginer nu a scris pentru ea un algoritm care să explice pas cu pas cum să ajungi dintr-un punct A exact B... Nimeni nu știe să scrie un program pentru conducerea unei mașini și nimeni nu are nevoie de el, deoarece o mașină echipată cu un algoritm de învățare se va uita la acțiunile șoferului și își va da seama singură.

Învățarea automată este o tehnologie care se construiește singură. Acesta este un fenomen nou în lumea noastră. De când strămoșii noștri îndepărtați au învățat să ascute pietrele și au făcut primele unelte, omenirea a dezvoltat artefacte pe cont propriu, manual sau în cantități mari. Algoritmii de învățare sunt artefacte care creează alte artefacte. „Computerele nu sunt de folos”, a spus Picasso. „Ei știu doar să dea răspunsuri”. Calculatoarele nu sunt menite să fie creative: trebuie să facă exact ceea ce li se spune să facă. Dar dacă le spui să fie creativi, primești învățare automată. Algoritmul de învățare este ca un artizan priceput: fiecare dintre creațiile sale este unică și fiecare este creată exact așa cum dorește clientul. Doar că, spre deosebire de maeștri, algoritmii de învățare transformă nu piatra în zidărie sau aurul în bijuterii, ci datele în algoritmi. Și cu cât au mai multe date, cu atât algoritmul poate fi mai bun.

Homo sapiens a învățat să adapteze lumea pentru el însuși, în loc să se adapteze el însuși la condițiile existente. Învățarea automată deschide un nou capitol într-o saga evolutivă lungă, de milioane de ani: cu ajutorul ei, lumea va simți ceea ce îți dorești și se va adapta la tine. Nici măcar nu ai nevoie de o baghetă magică: lumea din jurul tău - azi virtuală, iar mâine fizică - va arăta ca o pădure magică. Dacă urmezi poteca în desiș, devine drum. Dacă te pierzi, săgețile de direcție vor apărea de nicăieri.

Aceste tehnologii magice sunt posibile deoarece esența profundă a învățării automate este predicția: prezicerea dorințelor noastre, a rezultatelor acțiunilor noastre, modalități de a atinge obiectivele, schimbări în lume. A trebuit odată să ne bazăm pe șamani și ghicitori, dar acest lucru s-a dovedit a fi prea nesigur. Predicțiile științifice sunt mai credibile, dar sunt limitate la domenii pe care le putem observa în mod sistematic și care sunt susceptibile de modelare. Big Data și învățarea automată au împins aceste limite în mod dramatic. Uneori, o persoană poate prezice fără ajutor extern, de exemplu, când prinde o minge sau poartă o conversație. Se întâmplă că este imposibil de prezis, oricât ne-am strădui. Dar între aceste extreme, există o zonă largă pentru care învățarea automată este utilă.

Deși algoritmii de învățare oferă o perspectivă mai profundă asupra naturii și a comportamentului uman, ei înșiși, destul de ciudat, sunt învăluiți în mister. Nu trece o zi fără o nouă poveste despre învățarea automată care apare în mass-media, fie că este vorba despre lansarea de către Apple a Siri, supercomputerul IBM Watson care l-a învins pe campionul Jeopardy! (analog cu „Propriul tău joc”) 5
Aceasta se referă la supercomputerul IBM echipat cu un sistem de inteligență artificială, care a fost creat de o echipă de cercetători condusă de David Ferucci. În februarie 2011, pentru a testa capacitățile lui Watson, a participat la emisiunea TV Jeopardy !. Rivalii săi au fost Brad Rutter - câștigătorul celei mai mari victorii din program - și Ken Jennings - recordul pentru cea mai lungă rundă neînvinsă. Watson a câștigat cu 1 milion de dolari, în timp ce Jennings și Rutter au câștigat 300.000 și, respectiv, 200.000 dolari.

Lanțul de retail Target, care a aflat despre sarcina unei adolescente înaintea părinților, sau Agenția securitate naționala reunind probe împrăştiate. În toate aceste cazuri, totuși, algoritmii de învățare care au făcut posibile aceste povești rămân o cutie neagră pentru telespectatori. Chiar și cărțile despre big data ocolesc întrebarea cum un computer, după ce a înghițit toți acești terabytes, ajunge în mod magic la concluzii valoroase. În cel mai bun caz, rămânem cu impresia că algoritmii de învățare găsesc pur și simplu corelații între două evenimente, cum ar fi o interogare de căutare pe Google pentru „medicamentul răcelii” și răceala în sine. Găsirea de corelații pentru învățarea automată, totuși, nu este altceva decât elemente de bază. Nu poți trăi într-un munte de cărămizi.

Dacă o nouă tehnologie pătrunde în viața noastră în aceeași măsură ca învățarea automată, nu poate rămâne un mister pentru noi. Ambiguitățile creează un teren fertil pentru erori și aplicare greșită. Algoritmul Amazon este mai bun decât oricine altcineva pentru a determina ce cărți sunt citite în lume astăzi. Algoritmii Agenției Naționale de Securitate sunt capabili să recunoască un potențial terorist într-o persoană. Simulările climatice găsesc niveluri sigure de dioxid de carbon în atmosferă, iar modelele de stocare investesc mai mult în economie decât majoritatea dintre noi. Dar nu poți controla ceea ce nu înțelegi și de aceea trebuie să înțelegi învățarea automată - ca cetățean, ca specialist și ca cineva care tinde spre fericire.

Scopul principal al acestei cărți este de a vă prezenta secretele învățării automate. Doar inginerii și mecanicii trebuie să înțeleagă un motor de mașină, dar orice șofer ar trebui să știe că rotirea volanului schimbă direcția, iar dacă apăsați frâna, mașina se va opri. Astăzi, doar câțiva au o înțelegere a algoritmilor de învățare cel puțin la acest nivel, ca să nu mai vorbim de capacitatea de a-i folosi. Psihologul Donald Norman a inventat termenul de „model conceptual”: este o cunoaștere aproximativă a oricărei tehnologii, suficientă pentru a o folosi eficient. Această carte vă va oferi un model conceptual pentru învățarea automată.

Nu toți algoritmii de învățare funcționează la fel, iar acest lucru are anumite consecințe. Luați sistemele de recomandare Amazon și Netflix, de exemplu, și plimbați-le printr-o librărie tipică. Când încerci să găsești cărți care „îți vor plăcea cu siguranță”, cel mai probabil Amazon te va conduce la raftul pe care l-ai abordat des în trecut, iar Netflix te va duce într-un colț necunoscut și la prima vedere neevident, dar ceea ce găsești. există cu siguranță că o să-ți placă. Veți afla în această carte că Amazon și Netflix au doar tipuri diferite de algoritmi. Algoritmul Netflix merge mai adânc în gusturile tale (deși destul de modest), dar, în mod ciudat, asta nu înseamnă că Amazon ar beneficia de această abordare. Cert este că, pentru dezvoltarea cu succes a afacerii Netflix, este necesar să se îndrepte cererea către un tren lung de filme și emisiuni TV puțin cunoscute și, prin urmare, ieftine și să distragă atenția clienților de la blockbuster-uri, pentru care pur și simplu nu există suficient abonament pentru a plăti. Managerii Amazon nu au această problemă: ei consideră că este profitabil și să vândă mărfuri cu mișcare lentă, dar vânzarea de opțiuni populare și scumpe nu este mai puțin plăcută (și simplifică și logistica). În plus, este mai probabil ca clienții să urmărească ceva ieșit din comun cu un abonament decât să îl cumpere intenționat.

În fiecare an, în întreaga lume apar sute de noi algoritmi de învățare, dar toți se bazează pe un mic set de idei fundamentale. Acestea sunt ideile despre care este vorba în această carte și vă vor fi suficiente pentru a înțelege modul în care învățarea automată ne schimbă lumea. Fără a intra în junglă și nici măcar să nu atingem aplicarea algoritmilor în computere, vom oferi răspunsuri la întrebări importante pentru noi toți: „Cum învățăm?”, „Putem învăța mai eficient?”, „Ce suntem capabil să prezică?" Ai încredere în cunoștințele dobândite?" Școlile rivale de învățare automată răspund la aceste întrebări în moduri diferite. În total, există cinci tendințe științifice principale, cărora fiecare le vom dedica un capitol separat. Simboliștii văd învățarea ca inversul deducției și trag idei din filozofie, psihologie și logică. Conexiuni 6
Una dintre abordările în domeniul inteligenței artificiale, științei cognitive (știința cognitivă), neurobiologiei, psihologiei și filozofiei minții.

Recreează creierul prin inginerie inversă și sunt inspirate din neuroștiință și fizică. Evoluționistii simulează evoluția pe computere și se îndreaptă către genetică și biologia evolutivă. susținătorii bayesieni 7
Își are originile din teorema lui Bayes, una dintre principalele teoreme ale teoriei probabilităților elementare, și poartă numele lui Thomas Bayes (1702–1761), un matematician și preot englez care a propus pentru prima dată utilizarea teoremei pentru a corecta credințele bazate pe actualizate. date.

Învățarea este considerată a fi o formă de inferență probabilistică, iar rădăcinile acestei școli sunt în statistici. Analogiștii extrapolează pe baza asemănărilor și sunt influențați de psihologie și optimizare matematică. În efortul de a construi mașini de învățare, vom parcurge istoria gândirii din ultimele sute de ani și o vom vedea într-o lumină nouă.

Fiecare dintre cele cinci „triburi” ale învățării automate are propriul său cursant universal – Supremul – un algoritm care, în principiu, poate fi folosit pentru a extrage cunoștințe din date din orice domeniu. Pentru simboliști, aceasta este deducție inversă, pentru conexiuni, propagarea înapoi a erorii, pentru evoluționiști, programare genetică, pentru bayesieni, inferență bayesiană, iar pentru analogi, mașini vectori suport. Cu toate acestea, în practică, fiecare dintre acești algoritmi este bun pentru unele sarcini, dar nu foarte potrivit pentru altele. Aș dori ca toate caracteristicile lor să se îmbine în algoritmul suprem final, perfect. Cineva crede că acesta este un vis, dar mulți dintre noi - oameni implicați în învățarea automată - la aceste cuvinte ne luminează ochii, iar visul ne face să lucrăm până târziu în noapte.

Algoritmul suprem va putea extrage toate cunoștințele din datele în general - cunoștințe despre trecut, prezent și viitor. Invenția acestui algoritm va fi una dintre cele mai mari descoperiri din istoria științei. Va accelera progresul în orice, va schimba lumea într-un mod pe care cu greu ni-l putem imagina astăzi. Algoritmul suprem pentru învățarea automată este ceva asemănător cu modelul standard în fizica particulelor și dogma centrală a biologiei moleculare: o teorie unificată care explică tot ceea ce știm astăzi și pune bazele deceniilor sau secolelor de progres viitor. Algoritmul Suprem este cheia pentru rezolvarea celor mai dificile probleme cu care se confruntă omenirea - de la construirea de roboți domestici până la tratarea cancerului.

La urma urmei, cancerul este atât de greu de tratat, pentru că nu este una, ci un întreg complex de boli. Tumorile sunt cauzate de o gamă inimaginabil de largă de cauze, în plus, ele suferă mutații și metastazează. Cel mai sigur mod de a distruge o tumoare este secvențierea 8
Secvențiere (din latină sequentum - secvență) - determinarea secvenței de aminoacizi sau nucleotide a biopolimerilor (proteine ​​și acizi nucleici - ADN și ARN).

Genomul ei, pentru a determina ce medicamente vor ajuta fără a dăuna pacientului, ținând cont specific genomul și istoricul medical și poate chiar să dezvolte un nou medicament pentru acest caz particular. Niciun medic nu este capabil să stăpânească toate cunoștințele necesare pentru aceasta, dar soluția unor astfel de probleme este treaba perfecta pentru învățare automată. În esență, aceasta este doar o versiune mai complexă și mai serioasă a căutării pe care Amazon și Netflix o fac zilnic, doar că nu căutăm cartea sau filmul potrivit, ci medicamentul potrivit. Din păcate, în timp ce algoritmii de învățare sunt deja capabili să diagnosticheze multe boli cu o acuratețe supraomenească, tratamentele pentru cancer depășesc cu mult capacitățile lor. Dacă putem găsi algoritmul suprem, situația se va schimba. Prin urmare, al doilea scop al acestei cărți este de a ajuta tu însuți inventează-l. Ai putea crede că acest lucru necesită cele mai profunde cunoștințe de matematică și serioase munca teoretica... Deloc. Pentru a face acest lucru, trebuie doar să distragi atenția de la misterele matematicii și să te uiți la mecanismele de învățare cuprinzătoare, iar aici profanul care se apropie de pădure de departe se află în multe privințe într-o poziție mai bună decât profesionistul care este blocat în studiu. de arbori individuali. O soluție conceptuală a problemei poate fi completată cu matematică, dar acesta nu este cel mai important lucru și, în plus, nu este subiectul acestei cărți. Așadar, când mergem să vizităm fiecare „trib”, va fi necesar să strângem piesele puzzle-ului și să ne dăm seama unde se potrivesc, fără a uita că niciun orb nu poate vedea întregul elefant. Vom vedea ce contribuție poate aduce fiecare dintre „triburi” la tratamentul cancerului, ce îi lipsește, iar apoi, pas cu pas, vom pune piesele într-o soluție – sau mai bine zis, unul dintre solutii. Desigur, acesta nu va fi Algoritmul Suprem, dar nimeni nu s-a apropiat încă de el. Sperăm că rezultatul este un bun punct de plecare pentru imaginația ta. Apoi vom vedea cum algoritmul rezultat ar putea fi folosit ca armă în lupta împotriva cancerului. Pe măsură ce citiți această carte, nu ezitați să săriți peste ochi sau săriți peste pasaje greu de înțeles. Imaginea de ansamblu este importantă și poate fi mai util să ne întoarcem în aceste locuri după ce mozaicul a prins contur.

Fac cercetări de învățare automată de peste 20 de ani. Interesul meu pentru această temă a fost trezit de o carte cu un titlu ciudat, pe care am observat-o în ultimul an de facultate într-o librărie. Se numea Inteligență Artificială. Avea un scurt capitol despre învățarea automată, dar după ce l-am citit, m-am convins imediat că aceasta este cheia inteligenței artificiale, că știam atât de puține despre domeniu și că poate aș putea contribui. Așa că am renunțat la planurile mele de MBA și am continuat să fac studiile la Universitatea din California, Irvine. Învățarea automată era atunci o disciplină minoră, iar Universitatea din California avea unul dintre puținele grupuri de cercetare decente. Unii dintre colegii mei au plecat, considerând subiectul nepromițător, dar nu am cedat. Pentru mine, nu a fost nimic mai important decât predarea computerelor să învețe - pentru că dacă reușim să facem asta, vom avea un avans în rezolvarea oricărei alte probleme. Au trecut cinci ani. Terminam studiile superioare, iar în curte a domnit revoluția data mining. Mi-am dedicat disertația unificării abordării simboliștilor și analogiștilor, b OÎn cea mai mare parte a ultimului deceniu, el a combinat simbolismul și abordarea bayesiană și în timpuri recente- ambele metode cu conexionism. Acum este momentul să facem următorul pas și să încercăm să aducem toate cele cinci paradigme împreună.

Când am scris această carte, mi-am imaginat mai multe grupuri de cititori diferite, dar care se suprapun.

Dacă sunteți doar curios despre zgomotul din jurul big data și învățarea automată și bănuiți că lucrurile nu sunt chiar atât de simple pe cât se spun în ziare, aveți dreptate! Această carte va deveni un fel de ghid pentru tine.

Dacă sunteți interesat în primul rând de aplicarea învățării automate în afaceri, vă va ajuta să: 1) deveniți un consumator mai exigent de analiză; 2) să profite la maximum de specialiștii lor în prelucrarea și analiza informațiilor; 3) evitați capcanele care au ucis atât de multe proiecte de data mining; 4) afla ce zone pot fi automatizate fara costul codarii manuale a programelor; 5) să reducă rigiditatea sistemelor lor informaționale și 6) să anticipeze apariția unui număr de noi tehnologii care sunt chiar după colț. Am văzut de multe ori cum se irosesc bani și timp atunci când problemele sunt rezolvate de un algoritm de învățare greșit și cum este interpretat greșit ceea ce spune algoritmul. Pentru a evita un fiasco, trebuie doar să citiți această carte.

Dacă sunteți un cetățean conștiincios sau dacă sunteți responsabil pentru rezolvarea problemelor sociale, guvernamentale care au apărut după apariția datelor mari și a învățării automate, această carte va deveni ABC-ul dumneavoastră. tehnologie nouă... Fără să intri în detalii plictisitoare, vei afla ce este această tehnologie, la ce poate duce, ce poate face și ce nu. Veți vedea care sunt problemele reale - de la protecție intimitate la viitoarele locuri de muncă și la etica roboților de luptă - și la modul de abordare a acestora.

Indiferent dacă sunteți om de știință sau inginer, învățarea automată este un instrument puternic care vă va fi de folos. Abordările statistice vechi, testate în timp, nu vă vor salva în epoca unor volume mari (sau chiar medii) de date. Modelarea precisă a majorității fenomenelor va necesita abordări neliniare de învățare automată și aduce cu sine o nouă viziune științifică asupra lumii. Le place să folosească exagerat termenul „schimbare de paradigmă” în zilele noastre, dar sunt sigur că despre asta este vorba în cartea mea.

Chiar dacă sunteți un expert în învățarea automată și sunteți deja familiarizat cu majoritatea subiectelor pe care le acopăr, veți găsi multe idei proaspete, excursii în istorie, exemple utileși analogii. Sper cu adevărat că acest lucru vă va ajuta să aruncați o privire nouă asupra învățării automate și poate chiar să vă direcționați gândurile într-un mod nou. Este util să rupeți ceea ce atârnă pe ramurile inferioare, dar nu trebuie să pierdeți din vedere ceea ce este situat puțin mai sus. (Apropo, vă rog să-mi iertați libertatea poetică - epitetul „Suprem” în raport cu algoritmul de învățare universal.)

Indiferent dacă sunteți un student de orice vârstă – un elev de liceu care alege unde să studieze, un student în vârstă care se gândește dacă să meargă la știință sau un venerabil om de știință care plănuiește o schimbare în carieră, cartea mea va insufla o scânteie de interes în acest domeniu interesant. de studiu. Există o lipsă acută de specialiști în învățarea automată în lume și, dacă decideți să ni se alăture, puteți fi sigur că nu vă așteaptă doar momente incitante și beneficii materiale, ci și o șansă unică de a servi societatea. Și dacă stăpâniți deja învățarea automată, sper că această carte vă va ajuta să navigați mai bine în subiect. Dacă în căutarea ta ai dat peste Algoritmul Suprem, ar fi trebuit să iau stiloul pentru asta.

Ultimul, dar nu cel din urmă. Dacă doriți să gustați miracolul, învățarea automată este o sărbătoare pentru minte. Acceptă invitația și ajută-te!

Pedro Domingos

Algoritmul Suprem: Cum ne va schimba lumea învățarea automată

Pedro Domingos

Algoritmul Maestru

Cum căutarea mașinii supreme de învățare va reface lumea noastră


Editori științifici Alexander Sboev, Alexey Serenko


Publicat cu permisiunea lui Pedro Domingos c/o Levine Greenberg Rostan Literary Agency și Synopsis Literary Agency


Suportul juridic al editurii este asigurat de firma de avocatura „Vegas-Lex”.


© Pedro Domingos, 2015

© traducere rusă, ediție rusă, design. SRL „Mann, Ivanov și Ferber”, 2016

* * *

Această carte este bine completată de:

Inteligență artificială

Nick Bostrom


Frumusețea pătrat

Alex Bellos


Teoria jocului

Avinash Dixit și Barry Neilbuff

Pentru binecuvântată amintire a surorii mele Rita, care a pierdut lupta cu cancerul când scriam această carte

Cea mai mare sarcină a științei este să explice cât mai multe fapte experimentale prin deducție logică, pornind de la cât mai puține ipoteze și axiome.

Albert Einstein

Progresul civilizației constă în creșterea numărului de acțiuni importante pe care le realizăm fără să ne gândim.

Alfred North Whitehead

Învățarea automată este peste tot în jurul tău, deși este posibil să nu fii conștient de asta. Prin învățarea automată, motorul de căutare înțelege ce rezultate (și anunțuri) să apară ca răspuns la întrebarea dvs. Când vă scanați e-mailul, cea mai mare parte a spam-ului trece pe lângă dvs., deoarece a fost filtrat folosind învățarea automată. Indiferent dacă cumpărați ceva de pe Amazon.com sau verificați Netflix pentru a viziona un film, învățarea automată vă va sugera util opțiuni care v-ar putea plăcea. Folosind învățarea automată, Facebook decide ce știri să îți arate, iar Twitter selectează tweet-urile corespunzătoare. Ori de câte ori utilizați un computer, este foarte probabil ca învățarea automată să fie implicată undeva.

Singura modalitate de a face computerul să facă orice - de la adăugarea a două numere până la pilotarea unui avion - a fost să scrie un fel de algoritm care să explice meticulos mașinii exact ce i se cere. Cu toate acestea, algoritmii de învățare automată sunt o chestiune complet diferită: ei ghicesc totul ei înșiși, trag concluzii din date și cu cât sunt mai multe date, cu atât devin mai bune. Aceasta înseamnă că computerele nu trebuie să fie programate: se programează singure.

Acest lucru este adevărat nu numai în spațiul cibernetic: învățarea automată pătrunde întreaga noastră viață, de la trezire până la culcare.

Sapte dimineata. Ceasul cu alarmă pornește radioul. Se aude o muzică necunoscută, dar foarte plăcută: datorită serviciului Pandora, radioul a ajuns să vă cunoască gusturile și sa transformat într-un „Dj personal”. Este posibil ca melodia în sine să se fi născut și folosind învățarea automată. La micul dejun răsfoiești ziarul de dimineață. Cu câteva ore mai devreme, ea a părăsit presa, care fusese atent reglată cu un algoritm de învățare pentru a elimina defectele tipografice. Camera are o temperatură excepțional de confortabilă și facturile de energie electrică nu mușcă pentru că pui termostatul inteligent Nest.

În drum spre serviciu, mașina reglează în mod constant injecția de combustibil și recircularea gazelor de eșapament pentru a menține costurile cu benzina la minimum. În orele de vârf, Inrix, un sistem de predicție a traficului, economisește timp, ca să nu mai vorbim de nervi. La locul de muncă, învățarea automată vă ajută să faceți față supraîncărcării de informații: utilizați un cub de date pentru a rezuma o cantitate mare de informații, a le privi din unghiuri diferite și a afla tot ce contează în detaliu. Dacă trebuie să decideți ce aspect al site-ului - A sau V- va atrage mai multi potentiali clienti, sistemul instruit va testa ambele optiuni si va va furniza un raport. Trebuie să te uiți pe site-ul unui potențial furnizor și este într-o limbă străină? Nicio problemă: Google îl va traduce automat pentru dvs. E-mailurile sunt sortate convenabil în dosare și doar cele mai importante rămân în Inbox. Procesorul de text verifică gramatica și ortografia pentru dvs. Ați găsit un zbor pentru următoarea călătorie de afaceri, dar încă nu cumpărați un bilet, deoarece, potrivit Bing Travel, prețurile vor fi în curând mai mici. Fără să-ți dai seama, faci mult mai mult lucru în fiecare oră decât ai putea fără ajutorul învățării automate.

În timpul liber, verifici cum sunt investițiile tale în fondul mutual de investiții. Majoritatea acestor fonduri folosesc algoritmi de învățare pentru a selecta acțiuni promițătoare, iar unul dintre ei este complet controlat de un sistem de învățare automată. În timpul prânzului, ieși și te gândești unde să mănânci. Sistemul de învățare Yelp din smartphone-ul tău te va ajuta. Telefoanele mobile sunt în general pline la capacitate maximă cu algoritmi de învățare care corectează neobosit greșelile de scriere, recunosc comenzile vocale, corectează erorile de transmisie a datelor, citesc coduri de bare și fac multe alte lucruri utile. Smartphone-ul a învățat chiar să ghicească următoarea ta acțiune și să ofere sfaturi utile. De exemplu, vă va spune că întâlnirea va începe mai târziu, deoarece avionul în care ar trebui să zboare oaspetele dvs. are întârziere.

Dacă termini de lucru noaptea târziu, învățarea automată te va ajuta să ajungi la mașină în parcare fără incidente: algoritmii monitorizează video de la o cameră de securitate și avertizează de la distanță paznicii când observă ceva suspect. Să presupunem că oprești într-un supermarket în drum spre casă. Produsele de pe rafturi sunt aranjate conform instructiunilor algoritmilor cu antrenament: ei sunt cei care decid ce produse sunt cele mai bune de comandat, ce sa puna la capatul randului si unde sa fie salsa - in departamentul de sosuri sau lângă chipsuri de tortilla. La casă, plătiți cu cardul de credit. La un moment dat, algoritmul antrenat a decis că trebuie să trimiteți o ofertă pentru a o emite și apoi a aprobat cererea dvs. Un alt algoritm caută constant tranzacții suspecte și cu siguranță te va avertiza dacă i se pare că numărul cardului a fost furat. Al treilea algoritm încearcă să-și dea seama cât de mulțumit ești. Dacă sunteți un client bun, dar arăți nemulțumit, vi se va trimite o ofertă îndulcită înainte de a merge la competiție.

Întors acasă, te duci la cutia poștală și găsești acolo o scrisoare de la un prieten. A fost livrat datorită unui algoritm care a învățat să citească adresele scrise de mână. Pe langa scris, cutia contine maculatura obisnuita, selectata si pentru tine prin algoritmi cu antrenament (nu poti face nimic). Te oprești pentru o clipă să respiri aerul proaspăt al serii. Numărul infractorilor din oraș a scăzut dramatic de când poliția a început să folosească formarea statistică pentru a prezice probabilitatea crimei și a trimite patrule în zonele cu probleme. Cină cu familia și te uiți la televizor. Primarul este la știri. L-ai votat pentru că în ziua alegerilor te-a sunat personal. El ți-a fost semnalat de un algoritm de învățare care a văzut în tine un alegător cheie indecis. După cină poți urmări fotbal. Ambele echipe au egalat jucători folosind pregătirea statistică. Sau este mai bine să te joci cu copiii pe Xbox? În acest caz, algoritmul de învățare din Kinect va urmări poziția și mișcarea corpului dumneavoastră. Înainte de a merge la culcare, iei un medicament conceput și testat folosind algoritmi de învățare. Este posibil ca chiar și medicul dumneavoastră să fi folosit învățarea automată pentru a pune un diagnostic, de la interpretarea unei radiografii până la o concluzie bazată pe un set neobișnuit de simptome.

Învățarea automată își face treaba în toate etapele vieții umane. Dacă studiai pentru examene de facultate folosind internetul, un algoritm special a calificat eseurile de test. Și dacă ai fost recent la școala de afaceri și ai luat GMAT, sistemul de învățare era unul dintre examinatorii care notau eseurile. Poate că atunci când ai aplicat pentru un loc de muncă, un algoritm instruit a scos CV-ul din „morda virtuală” și i-a spus unui potențial angajator: „Uite, iată un candidat puternic”. Este probabil să vă datorați și un algoritm învățat creșterii salariale recente. Dacă doriți să cumpărați o casă, Zillow.com va evalua fiecare opțiune care vă interesează. Când decideți să luați un credit ipotecar, un algoritm de învățare automată va examina cererea și va recomanda aprobarea (sau respinsă). Și poate cel mai important, dacă ești interesat de întâlnirile online, învățarea automată te poate ajuta să găsești dragostea adevărată.

De la începuturile sale, regula Hebb a fost piatra de temelie a conexiunii. Acest domeniu științific își datorează numele ideii că cunoștințele sunt stocate în conexiunile dintre neuroni. În cartea sa din 1949 The Organization of Behavior, psihologul canadian Donald Hebb a descris-o astfel: „Dacă axonul unei celule A situat suficient de aproape de cușcă Bși participă în mod repetat sau constant la stimularea acesteia, atunci procesele de creștere sau modificări metabolice vor avea loc într-una sau ambele celule, ceea ce mărește eficiența excitației de către celulă. A celule B". Această afirmație este adesea reformulată ca „neuroni care se declanșează împreună comunică între ei”.

În regula lui Hebb, ideile de psihologie, neurobiologie și multe speculații au fuzionat. Învățarea asociativă a fost un subiect preferat al empirismilor britanici de la Locke, Hume și John Stuart Mill. În Principles of Psychology, William James a formulat un principiu general de asociere care este remarcabil de asemănător cu regula lui Hebb, dar în loc de neuroni, conține procese din creier, iar în loc de eficiența stimulării, propagarea excitației. Aproximativ în aceeași perioadă, marele om de știință spaniol Santiago Ramón y Cajal a efectuat primele studii detaliate ale creierului, colorând neuronii cu metoda Golgi recent inventată și și-a catalogat observațiile despre modul în care botaniștii clasifică noile specii de copaci. Pe vremea lui Hebb, oamenii de știință în neuroștiința aveau o înțelegere generală a modului în care funcționează neuronii, dar el a fost primul care a propus un mecanism prin care neuronii pot codifica asocieri.

În predarea simbolistă, există o corespondență unu-la-unu între simboluri și conceptele pe care le reprezintă. Reprezentările conecționiste sunt distribuite: fiecare concept este reprezentat de mulți neuroni, iar fiecare neuron participă la reprezentarea multor concepte. Neuronii care se excită reciproc formează, în terminologia lui Hebb, „ansambluri de celule”. Prin astfel de ansambluri, conceptele și amintirile sunt prezentate în creier. Fiecare ansamblu poate include neuroni din diferite regiuni ale creierului, ansamblurile se pot intersecta. Astfel, ansamblul celular pentru conceptul de „picior” include un ansamblu pentru conceptul de „picior”, care, la rândul său, include ansambluri pentru imaginea piciorului și sunetul cuvântului „picior”. Dacă întrebați sistemul simbolist unde se află conceptul de „New York”, acesta va indica locația exactă a stocării acestuia în memorie. Într-un sistem conexionist, răspunsul este „un pic peste tot”.

O altă diferență între învățarea simbolistă și cea conecționistă este că prima este secvențială, iar cea de-a doua este paralelă. În cazul deducerii inverse, ne dăm seama pas cu pas ce regulă trebuie introdusă pentru a ajunge la concluziile dorite din premise. În modelul conexionist, toți neuronii învață în același timp, conform regulii lui Hebb. Acest lucru reflectă diferențele dintre computere și creier. Calculatoarele fac chiar și operațiuni destul de obișnuite - de exemplu, adăugarea a două numere sau apăsarea unui comutator - în pași mici, așa că au nevoie de mulți pași. Acestea fiind spuse, pașii pot fi foarte rapizi, deoarece tranzistorii sunt capabili să pornească și să se oprească de miliarde de ori pe secundă. Creierul poate face un numar mare de calcule în paralel datorită funcționării simultane a miliarde de neuroni. În acest caz, neuronii pot fi stimulați cel mai bine de o mie de ori pe secundă, iar fiecare dintre aceste calcule este lent.

Numărul de tranzistori dintr-un computer se apropie de numărul de neuroni din creierul uman, dar cu siguranță creierul câștigă în numărul de conexiuni. Tranzistorul tipic dintr-un microprocesor este direct legat de puțini alții, iar tehnologia semiconductoare planare folosită limitează sever potențialul de îmbunătățire a performanței computerului. Și un neuron are mii de sinapse. Dacă mergi pe stradă și ai văzut o prietenă, ai nevoie doar de o zecime de secundă pentru a o recunoaște. Având în vedere viteza de comutare a neuronilor, această dată cu greu ar fi suficientă pentru sute de pași de procesare a informațiilor, dar în timpul acestor sute de pași creierul este capabil să scaneze toată memoria, să găsească cea mai potrivită din ea și să o adapteze la un nou context. (haine diferite, iluminare diferită și așa mai departe). Fiecare pas de prelucrare poate fi foarte complex și implică o mulțime de informații.

Acest lucru nu înseamnă că computerul nu poate simula creierul: la urma urmei, asta fac algoritmii conexiuniști. Din moment ce computerul este mașină universală Turing, poate efectua calcule în creier ca oricare altul, cu condiția să aibă suficientă memorie și timp. În special, lipsa de conectivitate poate fi compensată prin viteză: utilizați aceeași conexiune de o mie de ori pentru a simula o mie de conexiuni. De fapt azi dezavantajul principal computerele este că, spre deosebire de creier, ele consumă energie: creierul tău folosește aproximativ la fel de multă energie ca un bec mic, în timp ce electricitatea care alimentează computerul Watson, pe care am descris-o mai sus, poate lumina un întreg centru de afaceri.

Cu toate acestea, pentru a imita activitatea creierului, o regulă Hebb nu este suficientă: mai întâi trebuie să înțelegeți structura creierului. Fiecare neuron seamănă cu un copac mic cu un sistem uriaș de rădăcină de dendrite și un trunchi subțire ondulat - un axon. Creierul în ansamblu arată ca o pădure de miliarde de astfel de copaci, dar această pădure este neobișnuită: ramurile copacilor sunt conectate în ea cu rădăcinile a mii de alți copaci (astfel de conexiuni se numesc sinapse), formând un colosal, fără precedent. complexitate. Unii neuroni au axoni scurti, în timp ce alții sunt extrem de lungi, extinzându-se de la un capăt la celălalt al creierului. Dacă așezi axonii creierului unul în spatele celuilalt, ei vor lua distanța de la Pământ la Lună.

Această junglă trosnește cu descărcări electrice. Scânteile curg de-a lungul trunchiurilor și generează o mulțime și mai mare de scântei în copacii vecini. Din când în când pădurea erupe violent, apoi se liniștește din nou. Când o persoană mișcă un deget de la picior, o serie de descărcări electrice - numite potențiale de acțiune - curg pe măduva spinării până când ajung la mușchii degetului de la picior și îi spun să se miște. Creierul funcționează ca o simfonie a unor astfel de descărcări electrice. Dacă ai putea privi din interior ce se întâmplă în momentul în care citești această pagină, scena ar umbri cele mai aglomerate metropole din romanele științifico-fantastice. Acest model incredibil de complex de scântei neuronale dă naștere în cele din urmă la conștiința umană.

Pe vremea lui Hebb, ei nu știau încă să măsoare puterea sinapselor și modificările acesteia, cu atât mai puțin să înțeleagă biologia moleculară a proceselor sinaptice. Astăzi știm că sinapsele apar și se dezvoltă atunci când neuronii postsinaptici sunt declanșați la scurt timp după neuronii presinaptici. Ca și în cazul tuturor celulelor, concentrația de ioni în interiorul și în afara neuronului este diferită și, din această cauză, există o tensiune electrică peste membrana celulară. Când neuronul presinaptic este declanșat, veziculele minuscule care conțin molecule de neurotransmițători sunt eliberate în fanta sinaptică. Ele forțează să se deschidă canalele din membrana neuronului postsinaptic, din care ies ionii de potasiu și sodiu, modificând tensiunea de pe membrană. Dacă un număr suficient de neuroni presinaptici strâns distanțați sunt excitați simultan, tensiunea sare și un potențial de acțiune trece de-a lungul axonului neuronului postsinaptic. Datorită acestui fapt, canalele ionice devin mai receptive și apar și noi canale care întăresc sinapsa. Din câte știm, așa învață neuronii.

Următorul pas este să transformăm totul într-un algoritm.

Creșterea și căderea perceptronului

Primul model formal al neuronului a fost propus în 1943 de Warren McCulloch și Walter Pitts. Semăna foarte mult cu porțile logice care alcătuiesc computerele. Poarta SAU este pornită când cel puțin una dintre intrările sale este pornită, iar poarta și este pornită când toate sunt pornite. Neuronul McCulloch-Pitts pornește atunci când numărul de intrări active depășește un anumit prag. Dacă pragul este unul, neuronul acționează ca o poartă SAU. Dacă pragul este egal cu numărul de intrări, este ca și poarta I. În plus, un neuron McCulloch-Pitts poate să nu permită altuia să se pornească: aceasta simulează atât sinapsele inhibitoare, cât și poarta NOT. Astfel, rețelele neuronale pot efectua toate operațiunile pe care le poate face un computer. La început, computerul era adesea numit creier electronic, iar aceasta nu era doar o analogie.

Cu toate acestea, neuronul McCulloch-Pitts nu poate învăța. Pentru a face acest lucru, conexiunilor dintre neuroni trebuie să li se atribuie o pondere variabilă, iar rezultatul este un așa-numit perceptron. Perceptronii au fost inventați la sfârșitul anilor 1950 de Frank Rosenblatt, psiholog la Universitatea Cornell. Un vorbitor carismatic și o persoană foarte plină de viață, Rosenblatt a făcut mai mult decât oricine altcineva pentru a crea învățarea automată. Perceptronii își datorează numele interesului său de a-și aplica modelele la problemele de percepție (percepție), cum ar fi recunoașterea vorbirii și a simbolurilor. În loc să introducă perceptroni în programele de calculator care erau foarte lente în acele vremuri, Rosenblatt și-a construit propriile dispozitive: greutatea era reprezentată în ele sub formă de rezistențe variabile, precum cele găsite în întrerupătoarele reglabile, iar motoarele electrice erau folosite pentru învățarea ponderată. care a răsucit butoanele rezistențelor. (Cum vă place această tehnologie înaltă?)

În perceptron, o greutate pozitivă reprezintă un compus excitator, iar o greutate negativă reprezintă un compus inhibitor. Dacă suma ponderată a intrărilor de perceptron este peste prag, iese unul, iar dacă este sub acesta, iese zero. Variind greutățile și pragurile, puteți modifica funcția pe care o calculează perceptronul. Desigur, multe detalii despre funcționarea neuronilor sunt ignorate, dar până la urmă, dorim să simplificăm totul cât mai mult posibil, iar scopul nostru nu este să construim un model realist al creierului, ci să dezvoltăm un algoritm de învățare pentru utilizare pe scară largă. . Dacă oricare dintre detaliile ignorate se dovedește a fi important, le puteți adăuga oricând. În ciuda tuturor simplificărilor și abstractizării, puteți vedea că fiecare element al acestui model corespunde unui element al neuronului:

Cu cât greutatea de intrare este mai mare, cu atât sinapsa corespunzătoare este mai puternică. Corpul celulei adună toate intrările ponderate, iar axonul aplică o funcție de pas rezultatului. Figura din caseta axonului arată un grafic al unei funcții de pas: zero pentru valorile scăzute ale intrării se schimbă brusc la unu atunci când intrarea atinge valoarea de prag.

Imaginați-vă că un perceptron are două intrări continue Xși y(înseamnă că Xși y poate lua orice valoare numerică, nu doar 0 și 1). În acest caz, fiecare exemplu poate fi reprezentat ca un punct pe un plan, iar granița dintre exemplele pozitive (pentru care perceptronul iese 1) și negative (ieșirea 0) va fi o linie dreaptă:

Ideea este că o graniță este o serie de puncte în care suma ponderată se potrivește exact cu valoarea de prag, iar suma ponderată este o funcție liniară. De exemplu, dacă greutatea X- 2, greutate y- 3, iar pragul este 6, limita va fi dată de ecuația 2 X+ 3 = 6. Punct X = 0, y= 2 se află la graniță și, pentru a rămâne pe ea, trebuie să facem trei pași înainte pentru fiecare doi pași în jos: apoi creșterea X va compensa scăderea y... Punctele rezultate formează o linie dreaptă.

Găsirea greutăților perceptronului implică variarea direcției dreptei până când toate exemplele pozitive apar pe o parte și toate cele negative pe cealaltă. Într-o dimensiune limita este un punct, în două dimensiuni este o linie dreaptă, în trei dimensiuni este un plan, iar dacă sunt mai mult de trei dimensiuni este un hiperplan. Este dificil să vizualizezi ceva în hiperspațiu, dar matematica funcționează în el la fel: în n măsurătorile pe care le vom avea n intrări, iar perceptronul are n cântare. Pentru a decide dacă un perceptron declanșează sau nu, fiecare greutate trebuie înmulțită cu valoarea semnalului de intrare corespunzător și suma lor totală este comparată cu valoarea pragului.

Dacă ponderile tuturor intrărilor sunt egale cu unu, iar pragul este jumătate din numărul de intrări, perceptronul se va declanșa dacă sunt declanșate mai mult de jumătate din intrări. Cu alte cuvinte, perceptronul este ca un parlament minuscul în care majoritatea câștigă (deși probabil nu atât de mic, având în vedere că poate avea mii de membri). Dar, în același timp, parlamentul nu este în întregime democratic, deoarece în general nu toată lumea are dreptul la vot egal. O rețea neuronală seamănă mai mult cu Facebook în acest sens, pentru că câțiva prieteni apropiați valorează mii de prieteni – ei sunt cei în care ai cea mai mare încredere și te influențează cel mai mult. Daca un prieten iti recomanda un film, il urmaresti si iti va placea, data viitoare probabil vei urma din nou sfaturile lui. Pe de altă parte, dacă prietena ta este în mod constant încântată de filme care nu-ți fac nicio plăcere, vei începe să-i ignori părerea (și este posibil ca prietenia să se răcească).

Acesta este modul în care algoritmul perceptron al lui Rosenblatt află ponderea intrărilor.

Luați în considerare „colivia bunicii”, un experiment de gândire preferat al neuroștiinței cognitive. O „celula bunicii” este un neuron din creierul tău care se declanșează când și numai când o vezi pe bunica ta. Dacă o astfel de celulă există cu adevărat, este o întrebare deschisă, dar haideți să inventăm una special pentru învățarea automată. Perceptronul învață să recunoască bunica în felul următor. Semnalele de intrare pentru această celulă sunt fie pixeli bruti, fie diferite proprietăți de imagine hard-coded, cum ar fi ochi caprui: Intrarea va fi 1 dacă imaginea are ochi căprui și 0 dacă nu. Inițial, greutatea tuturor conexiunilor care duc de la proprietăți la neuroni este mică și arbitrară, precum sinapsele din creierul unui nou-născut. Apoi îi arătăm perceptronului o serie de imagini: unele au bunica ta, iar altele nu. Dacă perceptronul trage când vede o bunica sau nu trage când vede pe altcineva, atunci nu este nevoie de pregătire (nu repara ceea ce funcționează). Dar dacă perceptronul nu funcționează atunci când se uită la bunica, aceasta înseamnă că suma ponderată a valorilor intrărilor sale trebuie să fie mai mare, iar greutățile intrărilor active trebuie crescute (de exemplu, dacă bunica este maro). -ochi, greutatea acestei trăsături va crește). În schimb, dacă perceptronul este declanșat atunci când nu este necesar, ponderile intrărilor active ar trebui reduse. Erorile sunt motorul învățării. În timp, trăsăturile care indică bunica vor câștiga mult în greutate, iar cele care nu indică mic. De îndată ce perceptronul începe să lucreze mereu la vederea bunicii tale și falsele pozitive dispar, antrenamentul se va termina.

Perceptronul a stârnit entuziasm în comunitatea științifică. Era simplu, dar, în același timp, știa să recunoască literele tipărite și sunetele vorbirii: asta nu necesita decât să învețe prin exemplu. Colegul lui Rosenblatt de la Universitatea Cornell a demonstrat că dacă exemplele pozitive și negative pot fi separate printr-un hiperplan, perceptronul va găsi acest plan. Pentru Rosenblatt și altora, li s-a părut destul de realizabil să înțeleagă cu adevărat principiile prin care creierul învață și, odată cu el, un algoritm de învățare multifuncțional.

Dar apoi perceptronul a lovit peretele. Inginerii de cunoaștere au fost enervați de afirmațiile lui Rosenblatt: ei invidiau atenția și finanțarea pe care le atrag rețelele neuronale în general și perceptronii în special. Un astfel de critic a fost Marvin Minsky, un fost coleg de clasă cu Rosenblatt în domeniul științific liceuîn Bronx, conducând până atunci un grup de inteligență artificială la Institutul de Tehnologie din Massachusetts. (Este curios că teza lui era despre rețelele neuronale, dar apoi a devenit deziluzionat de ele.) În 1969, Minsky și colegul său Seymour Papert au publicat cartea Perceptrons: an Introduction to Computational Geometry, unde au descris în detaliu, unul câte unul , lucrurile simple cu care eponimul algoritmul nu reușește să învețe. Cel mai simplu și, prin urmare, cel mai ucigaș exemplu este funcția XOR (abreviată ca XOR), care este adevărată dacă una, dar nu ambele, intrări sunt adevărate. De exemplu, cele mai loiale două grupuri de cumpărători Nike sunt aparent băieți adolescenți și femei de vârstă mijlocie. Cu alte cuvinte, este mai probabil să cumperi adidași Nike dacă ești o tânără XOR. Tinerețea este potrivită, genul feminin și el, dar nu ambii factori deodată. Dacă nu ești tânăr și nu ești femeie, ești și o țintă nepromițătoare pentru publicitatea Nike. Problema cu XOR este că nu există o linie dreaptă care să separe pozitivul de negativ. Figura prezintă doi candidați nepotriviți:

Deoarece perceptronii pot găsi doar granițe liniare, XOR nu este disponibil pentru ei și, dacă nici măcar nu sunt capabili de asta, atunci perceptronul nu este cel mai bun model al modului în care creierul învață și nu este un candidat potrivit pentru algoritmii supremi.

Perceptronul modelează doar antrenamentul unui singur neuron. Minsky și Papert au recunoscut că straturile de neuroni interconectați ar trebui să fie capabile de mai mult, dar nu au înțeles cum să antreneze astfel de straturi. Nici alți oameni de știință nu știau asta. Problema este că nu există o modalitate clară de a modifica greutatea neuronilor din straturile „ascunse” pentru a reduce erorile neuronilor din stratul de ieșire. Fiecare neuron ascuns influențează rezultatul în multe feluri și fiecare eroare are mii de părinți. Cine trebuie invinovatit? Dimpotrivă, cui să mulțumesc pentru ieșirea corectă? Sarcina de a atribui factori de încredere apare de fiecare dată când încercăm să antrenăm un model complex și este una dintre problemele centrale ale învățării automate.

Cartea Perceptrons a fost izbitor de clară, fără cusur matematic și a avut un efect dezastruos asupra învățării automate, care în acei ani era asociată în principal cu rețelele neuronale. Majoritatea cercetătorilor (ca să nu mai vorbim de sponsori) au ajuns la concluzia că singura modalitate de a construi un sistem inteligent era să-l programeze în mod explicit, așa că ingineria cunoașterii a domnit în știință timp de 15 ani, iar învățarea automată părea sortită să rămână la gunoiul istoriei.

Fizicianul face un creier din sticlă

Dacă s-ar fi filmat un blockbuster de la Hollywood despre istoria învățării automate, Marvin Minsky ar fi principalul răufăcător - regina rea ​​care îi dă Albei ca Zăpada un măr otrăvit și o aruncă în pădure (într-un eseu scris în 1988, Seymour Papert a comparat chiar în glumă ea însăși vânătorului pe care regina l-a trimis în pădure să-l omoare pe Albă ca Zăpada). Prințul pe un cal alb ar fi un fizician al Institutului de Tehnologie din California pe nume John Hopfield. În 1982, Hopfield a observat o asemănare izbitoare între creier și ochelarii spin, un material exotic iubit de fizicienii statistici. Această descoperire a dus la o renaștere a conexionismului, care a atins apogeul câțiva ani mai târziu odată cu inventarea primilor algoritmi care ar putea rezolva problema factorilor de încredere. De asemenea, a inaugurat o nouă eră în care învățarea automată a înlocuit ingineria cunoașterii ca paradigmă dominantă în știința inteligenței artificiale.

Ochelarii Spin nu sunt de fapt ochelari, deși au unele proprietăți sticloase. Mai degrabă, sunt materiale magnetice. Fiecare electron este un magnet mic, deoarece are un spin care poate îndrepta în sus sau în jos. În materiale precum fierul, spinurile electronilor sunt de obicei aliniate într-o singură direcție: dacă un electron cu spin-down este înconjurat de electroni spin-up, este probabil să se răstoarne. Când majoritatea învârtirilor dintr-o bucată de fier se aliniază, aceasta se transformă într-un magnet. La magneții obișnuiți, forța de interacțiune între spinurile adiacente este aceeași pentru toate perechile; totuși, într-un sticla de spin, aceasta poate fi diferită și chiar negativă, din cauza căreia spinurile adiacente iau direcții opuse. Energia unui magnet obișnuit este cea mai mică dacă toate roțile sunt aliniate, dar într-un sticla de spin, lucrurile nu sunt atât de simple: în general, găsirea stării celei mai scăzute de energie pentru un sticla de spin este o problemă NP-completă, adică aproape orice. o altă problemă complexă de optimizare poate fi redusă la aceasta. Drept urmare, sticla de spin nu intră neapărat în starea celei mai scăzute energie: se poate bloca într-un minim local mai degrabă decât într-un minim global, adică într-o stare de energie mai mică decât toate stările în care se poate ajunge din el. prin schimbarea rotației. În multe privințe, aceasta este ca apa de ploaie care curge într-un lac, mai degrabă decât direct în ocean.

Hopfield a observat o asemănare interesantă între sticla de spin și rețelele neuronale. Spinul unui electron răspunde la comportamentul vecinilor săi în același mod ca un neuron: se răstoarnă în sus dacă suma ponderată a vecinilor depășește o valoare de prag și în jos (sau nu se modifică) dacă nu se schimbă. Inspirat de acest fapt, Hopfield a identificat un tip de rețea neuronală care evoluează de-a lungul timpului în același mod ca un sticla spin și a postulat că stările de energie minimă pentru această rețea sunt amintirile sale. Fiecare astfel de stare este o „regiune de atracție” pentru stările inițiale care converg în ea și, datorită acestui fapt, rețeaua neuronală este capabilă să recunoască tipare: de exemplu, dacă una dintre amintiri este pixeli alb-negru care formează numărul nouă, iar în imagine este un nouă distorsionat, rețeaua îl va reduce la numărul „ideal” și îl va recunoaște. Dintr-o dată, o gamă largă de teorii fizice au putut fi aplicate învățării automate și un flux de fizicieni statistici a intrat în disciplină, ajutând să o scoată din minimul local în care era blocată.

Cu toate acestea, sticla spin este încă un model foarte nerealist al creierului. În primul rând, interacțiunile spin sunt simetrice, dar conexiunile dintre neuronii din creier nu sunt. O altă mare problemă pe care modelul lui Hopfield a ignorat-o a fost că neuronii reali acționează statistic: ei nu se pornesc și nu se opresc determinist pe baza intrării, ci mai degrabă pornesc mai probabil, dar nu neapărat, atunci când suma ponderată a intrărilor crește. În 1985, cercetătorii David Oakley, Geoffrey Hinton și Terry Seinovski au înlocuit neuronii determiniști din rețelele Hopfield cu neuroni probabilistici. Rețeaua neuronală a primit o distribuție de probabilitate asupra stărilor sale, iar stările cu energie înaltă au devenit exponențial mai puțin probabile decât cele cu energie scăzută. Probabilitatea de a găsi o rețea într-o anumită stare a fost dată de distribuția Boltzmann, binecunoscută în termodinamică, așa că oamenii de știință și-au numit rețeaua mașina Boltzmann.

Mașina lui Boltzmann constă dintr-un amestec de neuroni senzoriali și latenți (asemănători, de exemplu, cu retina și creierul) și învață alternând somnul și veghea, ca un om. Când sunt treziți, neuronii senzoriali se declanșează în funcție de date, în timp ce cei ascunși evoluează în funcție de dinamica rețelei și intrările senzoriale. De exemplu, dacă rețelele arată o imagine de nouă, neuronii corespunzători pixelilor negri ai imaginii se vor porni, alții vor rămâne opriți, iar neuronii ascunși vor fi activați aleatoriu conform distribuției Boltzmann pentru aceste valori de pixeli. În timpul somnului, neuronii senzoriali și ascunși rătăcesc liber, iar înainte de zorii unei noi zile, aparatul compară statisticile stărilor sale din timpul somnului și din timpul activității de ieri și modifică greutățile conexiunilor astfel încât să armonizeze aceste stări. Dacă în timpul zilei doi neuroni se declanșează de obicei împreună și mai rar în somn, greutatea conexiunii lor va crește. Dacă, dimpotrivă, va scădea. Zi de zi, corelațiile prezise între neuronii senzoriali evoluează până când încep să coincidă cu cei reali: în acest moment, mașina Boltzmann primește un model de date bun, adică problema atribuirii coeficienților de încredere este rezolvată eficient.

Jeff Hinton și-a continuat cercetările și a încercat multe variante ale mașinii Boltzmann în următoarele decenii. Hinton, un psiholog devenit informatician și stră-strănepotul lui George Boole, inventatorul calculului logic folosit în toate computerele digitale, este cel mai important conexionist din lume. I-a luat mai mult și mai greu decât alții să-și dea seama cum funcționează creierul. Hinton spune că într-o zi a venit acasă de la serviciu și a strigat entuziasmat: „Da! Am înțeles cum funcționează creierul!” La care fiica lui a răspuns: "Tată, iarăși?!" Recent, a devenit interesat de învățarea profundă, despre care vom vorbi mai târziu în acest capitol, și a participat, de asemenea, la dezvoltarea unei metode de propagare inversă a erorilor - un algoritm care este mai perfect decât o mașină Boltzmann. rezolvarea problemei atribuirea creditelor de încredere (discutate în capitolul următor). Mașinile Boltzmann pot rezolva această problemă în principiu, dar în practică, învățarea este foarte lentă și dificilă, așa că această abordare este în majoritatea cazurilor nepractică. Următoarea descoperire a necesitat o altă simplificare excesivă care se întoarce la McCulloch și Pitts.

Cea mai importantă curbă din lume

În raport cu vecinii săi, un neuron poate fi doar într-una din cele două stări - activ și inactiv. Totuși, aici lipsește nuanță importantă... Potențialele de acțiune nu durează mult: tensiunea crește doar pentru o fracțiune de secundă și revine imediat la starea de repaus. Acest salt abia este înregistrat de neuronul receptor: pentru a trezi celula este nevoie de o serie de sărituri cu intervale scurte. Neuronii normali sunt activați periodic fără nicio stimulare. Pe măsură ce stimularea se acumulează, neuronul se declanșează din ce în ce mai des și apoi ajunge la saturație - cea mai mare frecvență de supratensiune de care este capabil, după care creșterea stimulării nu are niciun efect. Neuronul arată mai mult ca nu o poartă logică, ci un convertor tensiune-frecvență. Curba frecvență față de tensiune arată astfel:

Această curbă, care arată ca o litera S alungită, este numită sub diverse denumiri: logistică, în formă de S, sigmoid. Aruncă o privire mai atentă la el, pentru că este cea mai importantă curbă din lume. La început, ieșirea crește lent odată cu intrarea: atât de încet încât pare constantă. Apoi începe să se schimbe mai repede, apoi foarte repede, apoi din ce în ce mai lent și în cele din urmă devine din nou aproape constant. Curba tranzistorului care conectează tensiunea de intrare și de ieșire este, de asemenea, în formă de S, astfel încât atât computerele, cât și creierul sunt umplute cu curbe S. Dar asta nu este tot. Toate tipurile de tranziții de fază au o formă sigmoidă: probabilitatea ca un electron să-și schimbe spinul în funcție de câmpul aplicat, magnetizarea fierului, scrierea unui bit de memorie pe un hard disk, deschiderea unui canal ionic într-o celulă, topirea gheții, evaporarea apă, expansiunea inflaționistă a unui Univers tânăr, echilibru discontinuu în evoluție, o schimbare a paradigmelor științifice, răspândirea noilor tehnologii, fuga populațiilor albe din zone mixte, zvonuri, epidemii, revoluții, căderea imperiilor și multe altele. Punctul de răsturnare: Cât de mici lucrurile pot face o mare diferență ar putea (deși mai puțin tentant) să fie numit „Sigmoid”. Un cutremur este o tranziție de fază în poziția relativă a două plăci tectonice alăturate, iar bubuitul pe care îl auzim uneori noaptea este pur și simplu o schimbare a „plăcilor tectonice” microscopice în pereții unei case, așa că nu vă alarmați. Joseph Schumpeter a spus că economia se dezvoltă în fisuri și salturi: distrugerea creativă are și o formă în formă de S. Câștigurile și pierderile financiare afectează, de asemenea, fericirea umană în funcție de sigmoid, așa că nu ar trebui să vă suprasolicitați și să vă faceți griji. Probabilitatea ca o formulă logică arbitrară să fie fezabilă - chiar miezul problemelor NP-complete - urmează o tranziție de fază de la aproape unu la aproape zero pe măsură ce lungimea formulei crește. Fizicienii statistici pot studia tranzițiile de fază toată viața.

În The Sun Also Rises de Hemingway, Mike Campbell este întrebat cum a dat faliment, iar acesta răspunde: „În două moduri. La început treptat, apoi imediat.” Lehman Brothers ar putea spune același lucru. Aceasta este esența sigmoidului. Una dintre regulile de predicție formulate de futuristul Paul Saffo este: Căutați curbele în S. Dacă nu puteți „prinde” o temperatură confortabilă la duș - apa este prea rece la început și apoi imediat prea fierbinte - dați vina pe curba S. Dezvoltarea de-a lungul curbei în formă de S este clar vizibilă atunci când gătiți floricele de porumb: la început nu se întâmplă nimic, apoi câteva boabe explodează, apoi multe deodată, apoi aproape toate explodează cu artificii, apoi puțin - și puteți mânca. Mișcarea musculară urmează și un sigmoid: lent, rapid și din nou lent: desenele animate au devenit mult mai naturale atunci când animatorii Disney și-au dat seama de acest lucru și au început să imite. Ochii se deplasează de-a lungul curbei S, fixându-se împreună cu conștiința asupra unui obiect sau altul. Starea de spirit se schimbă în funcție de tranziția de fază. Este la fel cu nașterea, pubertatea, îndrăgostirea, căsătoria, sarcina, obținerea unui loc de muncă și concedierea, mutarea în alt oraș, promovările, pensionarea și moartea. Universul este o uriașă simfonie de tranziții de fază, de la cosmic la microscopic, de la cel mai banal la cel care schimbă viața.

Sigmoidul este important nu numai ca model. La matematică, ea lucrează neobosit. Dacă apropiați segmentul său central, acesta va fi aproape de o linie dreaptă. Multe lucruri pe care le considerăm liniare sunt de fapt curbe în S, deoarece nimic nu poate crește la infinit. În virtutea relativității și spre deosebire de Newton, accelerația nu crește liniar cu creșterea forței, ci urmează un sigmoid centrat la zero. O imagine similară se observă cu dependența curent electric de la tensiunea din rezistoare circuite electriceși în becuri (până când filamentul se topește, ceea ce în sine este o altă tranziție de fază). Când este privită de la distanță, curba în formă de S seamănă cu o funcție în trepte în care ieșirea la valoarea de prag se schimbă brusc de la zero la unu. Prin urmare, în funcție de tensiunea de intrare, funcționarea tranzistorului în calculatoarele digitale și dispozitivele analogice, cum ar fi amplificatoarele și tunerele, va fi descrisă prin aceeași curbă. Segmentul inițial al sigmoidului este în esență exponențial, iar în apropierea punctului de saturație se apropie de dezintegrarea exponențială. Când cineva vorbește despre creșterea exponențială, întreabă-te: cât de curând va intra într-o curbă în S? Când creșterea explozivă a populației încetinește, Legea lui Moore își va epuiza posibilitățile, iar Singularitatea nu va veni niciodată? Diferențiați sigmoidul și obțineți o curbă gaussiană: „lent – ​​rapid – lent” devine „jos – ridicat – scăzut”. Adăugați o serie de curbe în S trepte care merg în sus și în jos și obțineți ceva aproape de undă sinusoidală. De fapt, fiecare funcție poate fi aproximată îndeaproape prin suma curbelor S: când funcția crește, adaugi un sigmoid, când în jos, scazi. Învățarea unui copil nu este o îmbunătățire treptată, ci o acumulare de curbe în S. Acest lucru se aplică și schimbărilor tehnologice. Aruncă o privire la New York-ul de departe și vei vedea o colecție de sigmoizi desfășurându-se de-a lungul orizontului, la fel de ascuțite ca colțurile zgârie-norilor.

Pentru noi, cel mai important lucru este că curbele S conduc la o nouă soluție la problema factorilor de încredere. Deoarece universul este o simfonie de tranziții de fază, să-l modelăm cu o tranziție de fază. Este exact ceea ce face creierul: ajustează sistemul de tranziții de fază din interior la un sistem similar din exterior. Deci, să înlocuim funcția de treaptă a perceptronului cu un sigmoid și să vedem ce se întâmplă.

Alpinism în hiperspațiu

În algoritmul perceptron, semnalul de eroare funcționează pe baza totul sau nimic: corect sau greșit. Rar, mai ales în cazul rețelelor multor neuroni. Poți înțelege că neuronul din ieșire a fost greșit (oh, nu era bunica ta?), Dar cum rămâne cu un neuron din adâncurile creierului? Și, în general, ce înseamnă binele și răul pentru un neuron profund? Cu toate acestea, dacă ieșirea neuronului este continuă și nu binară, imaginea se schimbă. În primul rând, putem aprecia cât costă neuronul de ieșire este greșit, în funcție de diferența dintre ieșirea primită și cea dorită. Dacă neuronul ar trebui să declanșeze activitate ("Oh, bunico! Bună!") Și este ușor activ, este mai bine decât dacă nu ar declanșa deloc. Mai important, această eroare poate fi extinsă acum la neuronii ascunși: dacă neuronul de ieșire ar trebui să fie mai activ și un neuron este conectat la el A, atunci cu atât neuronul este mai activ A, cu atât mai mult trebuie să întărim legătura dintre ele. Dacă A suprimat de un neuron B, atunci B ar trebui să fie mai puțin activ și așa mai departe. Datorită feedback-ului de la toți neuronii cu care este conectat, fiecare neuron decide cât de mult sau mai puțin să activeze. Aceasta, precum și activitatea al lui neuronii de intrare îi dictează dacă să întărească sau să slăbească conexiunile cu ei. Trebuie să fiu mai activ și neuronul B mă suprimă? Prin urmare, greutatea sa trebuie redusă. Un neuron C foarte activ, dar legătura lui cu mine este slabă? Să-l întărim. În runda următoare, neuronii clienți mai jos în rețea vă vor spune cât de bine am făcut sarcina.

Ori de câte ori „retina” algoritmului de învățare vede o nouă imagine, semnalul se propagă în întreaga rețea până ce cedează. Compararea ieșirii obținute cu cea dorită produce un semnal de eroare, care apoi se propagă înapoi prin toate straturile și ajunge la retină. Fiecare neuron ajustează greutățile pe baza semnalului de întoarcere și a intrărilor primite în timpul căii înainte. Pe măsură ce rețeaua vede din ce în ce mai multe imagini ale bunica ta și ale altor persoane, greutățile converg treptat către valori care fac posibilă distingerea una de alta. Metoda de retropropagare, așa cum este numit acest algoritm, este incomparabil mai puternică decât perceptronul. Un singur neuron poate găsi doar o linie dreaptă, iar un așa-numit perceptron multistrat poate găsi granițe încurcate în mod arbitrar, cu condiția să aibă destui neuroni ascunși. Acest lucru face ca propagarea înapoi a erorii să devină algoritmul suprem al conexioniştilor.

Backpropagarea este un caz special al unei strategii foarte des întâlnite în natură și tehnologie: dacă trebuie să urcați rapid un munte, luați cea mai abruptă pantă pe care o puteți găsi. Termenul tehnic pentru acest fenomen este „urcare în pantă” (dacă vrei să ajungi în vârf) sau „coborâre în pantă” (dacă te uiți la valea de mai jos). Bacteriile sunt capabile să caute hrană, mișcându-se de-a lungul gradientului de concentrație, să zicem glucoza, și să scape de otrăvuri, mișcându-se împotriva gradientului lor. O mulțime de lucruri pot fi optimizate cu coborârea în gradient, de la aripile de avion până la sistemele de antene. Propagarea inversă este o modalitate eficientă de a face acest lucru într-un perceptron multistrat: reglați în continuare greutățile pentru a reduce posibilitatea de eroare și opriți-vă când devine evident că ajustările nu funcționează. În cazul retropropagarii, nu este nevoie să ne dați seama cum să reglați greutatea fiecărui neuron de la zero (ar fi prea lent): acest lucru se poate face strat cu strat, ajustând fiecare neuron pe baza celor deja configurați cu care este conectat. Dacă într-o situație de urgență trebuie să aruncați toate instrumentele de învățare automată și să salvați un lucru, probabil că decideți să salvați coborârea în gradient.

Deci, cum rezolvă propagarea inversă problema învățării automate? Poate că trebuie doar să colectezi o grămadă de neuroni, să aștepți până când ei evocă tot ce au nevoie și apoi să treci pe la bancă pentru a primi Premiul Nobel pentru descoperirea principiului creierului? Din păcate, viața nu este atât de simplă. Imaginează-ți că rețeaua ta are o singură greutate; dependența erorii de aceasta este prezentată în acest grafic:

Greutatea optimă cu cea mai mică eroare este 2,0. Dacă rețeaua începe să funcționeze, de exemplu, de la 0,75, propagarea înapoi a erorii în câțiva pași va ajunge la optim, ca o minge care se rostogolește pe un deal. Cu toate acestea, dacă începem de la 5.5, vom aluneca în jos până la 7.0 și vom rămâne blocați acolo. Propagarea înapoi a erorii cu modificările treptate ale greutăților nu va putea găsi minimul global al erorii, iar minimele locale pot fi arbitrar proaste: de exemplu, o bunica poate fi confundată cu o pălărie. Dacă există o singură greutate, puteți încerca toate valorile posibile cu un pas de 0,01 și astfel găsiți optimul. Dar atunci când ponderile sunt în mii, darămite în milioane sau miliarde, aceasta nu este o opțiune, deoarece numărul de puncte de pe grilă va crește exponențial odată cu numărul de ponderi. Minimul global va fi ascuns undeva în adâncurile fără fund ale hiperspațiului - căutați un ac într-un car de fân.

Imaginează-ți că ești răpită, legată la ochi și aruncată undeva în Himalaya. Capul mi se desparte, memoria mea nu este foarte bună, dar știi cu fermitate că trebuie să urci în vârful Everestului. Cum să fii? Pasi inainte si aproape aluneci in defileu. Respirând, decideți să acționați mai sistematic și să simțiți cu atenție solul din jur cu piciorul pentru a determina cel mai înalt punct. Apoi mergi timid spre ea și totul se repetă. Încetul cu încetul urci din ce în ce mai sus. După un timp, orice pas începe să coboare și te oprești. Aceasta este o ascensiune în gradient. Dacă ar fi un singur Everest în Himalaya și cu o formă conică ideală, totul ar fi bine. Dar, cel mai probabil, locul unde toate treptele duc în jos va fi încă foarte departe de vârf: pur și simplu vei rămâne blocat pe un deal de jos. Este exact ceea ce se întâmplă cu propagarea înapoi a erorii, doar că urcă munți în hiperspațiu, și nu în spațiul tridimensional, ca al nostru. Dacă rețeaua ta este formată dintr-un neuron și urci pas cu pas către cele mai bune greutăți, atunci vei ajunge în vârf. Dar într-un perceptron cu mai multe straturi, peisajul este foarte accidentat - du-te să găsești cel mai înalt vârf.

Acesta este parțial motivul pentru care Minsky, Papert și alți cercetători nu au înțeles cum ar putea fi antrenați perceptronii multistrat. Ei și-au putut imagina înlocuirea funcțiilor pas cu curbe S și coborâre a gradientului, dar apoi s-au confruntat cu problema minimelor de eroare locale. La acel moment, oamenii de știință nu aveau încredere în simulările computerizate și au cerut dovezi matematice ale performanței algoritmului și nu exista o astfel de dovadă pentru propagarea înapoi a unei erori. Dar, după cum am văzut deja, în cele mai multe cazuri un minim local este suficient. Suprafața erorii este deseori asemănătoare porcului spinos: multe vârfuri și jgheaburi abrupte și chiar nu contează dacă găsim cel mai adânc, absolut jgheab, orice va face. Și mai bine, minimul local este chiar de preferat, deoarece este mai puțin predispus la supraadaptare decât minimul global.

Hiperspațiul este o sabie cu două tăișuri. Pe de o parte, cu cât numărul de măsurători este mai mare, cu atât este mai mare spațiu pentru suprafețe foarte complexe și extreme locale. Pe de altă parte, pentru a rămâne blocat într-un extremum local, trebuie să te blochezi dintre toate dimensiuni și este mai greu să te blochezi în multe în același timp decât în ​​trei. Hiperspațiul are treceri care străbat tot (hiper) terenul, așa că, cu puțin ajutor uman, propagarea înapoi a unei erori își poate găsi adesea drumul către un set perfect de greutăți. Poate că acesta nu este nivelul mării, ci doar legendara vale a Shangri-La, dar de ce să ne plângem dacă în hiperspațiu există milioane de astfel de văi și miliarde de treceri duc la fiecare?

Cu toate acestea, nu merită să acordați prea multă importanță greutăților care sunt propagate înapoi de eroare. Amintiți-vă, probabil că există multe opțiuni foarte diferite, dar la fel de bune. Învățarea unui perceptron multistrat este haotică, în sensul că pornind de la locații ușor diferite poate duce la soluții foarte diferite. Acest fenomen se manifestă în cazul unor diferențe minore atât în ​​ponderile inițiale, cât și în datele de antrenament și apare în toți algoritmii de învățare puternici, nu doar în propagarea înapoi a erorii.

Noi am putea scăpați de problema extremelor locale prin eliminarea sigmoidelor noastre și lăsând fiecare neuron să scoată pur și simplu o sumă ponderată a intrărilor sale. În acest caz, suprafața erorii ar deveni foarte netedă și ar rămâne doar un minim - cel global. Ideea este însă că funcția liniară funcții liniare este încă o funcție liniară, așa că o rețea de neuroni liniari nu este mai bună decât un singur neuron. Un creier liniar, oricât de mare ar fi, va fi mai prost decât un vierme. Curbele S sunt doar un bun punct de tranziție între stupiditatea funcțiilor liniare și complexitatea funcțiilor pas.

Perceptronii ripostează

Backpropagation a fost inventată în 1986 de David Rumelhart, psiholog la Universitatea din California, San Diego, în colaborare cu Jeff Hinton și Ronald Williams. Ei au dovedit, printre altele, că backpropagarea poate face față cu SAU exclusiv și, astfel, le-au oferit conecționiștilor ocazia de a arăta limbajul lui Minsky și Papert. Luați în considerare exemplul adidașilor Nike: adolescenții și femeile de vârstă mijlocie sunt cei mai probabili cumpărători. Acest lucru poate fi imaginat folosind o rețea de trei neuroni: unul este declanșat când vede un adolescent, celălalt este o femeie de vârstă mijlocie, iar al treilea este declanșat atunci când ambii sunt activați. Prin propagarea inversă a erorii, puteți afla greutățile corespunzătoare și puteți avea un detector Nike Prospective Buyer de succes. (Asta este, Marvin.)

În primele demonstrații ale puterii propagării inverse, Terry Seinowski și Charles Rosenberg au antrenat perceptronul multistrat să citească cu voce tare. Sistemul lor NETtalk a scanat text, a potrivit foneme în funcție de context și le-a transmis unui sintetizator de vorbire. NETtalk nu numai că a făcut generalizările corecte pentru cuvintele noi, pe care sistemele bazate pe cunoștințe nu le-au putut, dar a învățat și să vorbească foarte mult ca o persoană. Lui Seinowski îi plăcea să captiveze publicul la evenimente științifice, rulând o înregistrare a predării NETtalk: mai întâi bolboroseală, apoi ceva mai inteligibil și, în sfârșit, vorbire destul de lină, cu erori individuale. (Căutați pe YouTube exemple pentru sejnowski nettalk.)

Prognoza pe bursa a fost primul mare succes al retelelor neuronale. Deoarece rețelele sunt capabile să detecteze mici neliniarități în datele foarte zgomotoase, ele au câștigat popularitate și au înlocuit modelele liniare comune în finanțe. Un fond de investiții tipic antrenează rețele pentru fiecare dintre numeroasele titluri de valoare, apoi le alege pe cele mai promițătoare, iar apoi analiștii umani decid în care să investească. Cu toate acestea, o serie de fonduri au mers până la capăt și au permis algoritmilor de învățare automată să facă achiziții și vânzări pe cont propriu. Câți au reușit exact este un mister sigilat, dar pe măsură ce specialiștii în algoritmi de învățare dispar într-un ritm alarmant în adâncurile fondurilor speculative, probabil că există ceva.

Modelele neliniare nu sunt importante doar la bursa. Oamenii de știință folosesc pe scară largă regresia liniară pentru că o cunosc bine, dar fenomenele studiate sunt adesea neliniare, iar perceptronul multistrat este capabil să le modeleze. Modelele liniare nu văd tranziții de fază, iar rețelele neuronale le absorb ca pe un burete.

Un alt succes notabil al rețelelor neuronale timpurii a fost învățarea să conduci o mașină. Mașinile cu conducere autonomă au atras pentru prima dată atenția la nivel mondial la DARPA Grand Challenge în 2004 și 2005, dar cu mai bine de un deceniu mai devreme, oamenii de știință de la Carnegie Mellon University au antrenat cu succes un perceptron multistrat pentru a conduce o mașină: recunoașteți direcțiile pe video și întoarceți volanul în locul potrivit... Cu puțin ajutor de la un bărbat - un copilot - această mașină a putut să traverseze Statele Unite de la ocean la ocean, deși „viziunea” sa era foarte tulbure (30x32 pixeli), iar creierul este mai mic decât cel al unui vierme. (Proiectul s-a numit No Hands Across America.) Poate că nu a fost prima mașină cu adevărat autonomă, dar chiar și s-a deosebit de majoritatea adolescenților la volan.

Propagarea inversă are o multitudine de utilizări. Pe măsură ce faima lui creștea, se știa din ce în ce mai mult despre istoria lui. S-a dovedit că, așa cum se întâmplă adesea în știință, metoda a fost inventată de mai multe ori: informaticianul francez Jan Lecun și alți oameni de știință au dat peste ea cam în același timp cu Rumelhart. În anii 1980, un mesaj despre metoda de backpropagation a fost respins la o conferință importantă despre inteligența artificială, deoarece, potrivit recenzenților, Minsky și Papert au demonstrat că perceptronii nu funcționează. În general vorbind, Rumelhart este considerat inventatorul metodei mai degrabă conform „testului lui Columb”: Columb nu a fost primul care a descoperit America, dar a fost ultimul. S-a dovedit că Paul Verbos, student absolvent la Universitatea Harvard, a propus un algoritm similar în disertația sa în 1974, iar cea mai mare ironie este că Arthur Bryson și He Yuqi, specialiști în teoria controlului, au reușit acest lucru în 1969 - exact când Minsky și Papert și-a publicat cartea Perceptrons! Așadar, istoria învățării automate în sine arată de ce avem nevoie de algoritmi de învățare: dacă algoritmii ar dezvălui automat că există articole pe această temă în literatura științifică încă din 1969, nu am pierde decenii și cine știe ce descoperiri s-ar face mai repede.

Există multă ironie în istoria perceptronului, dar lucrul trist este că Frank Rosenblatt nu a văzut niciodată al doilea act al creației sale: s-a înecat în Golful Chesapeake în același 1969.

Model celular complet

O celulă vie este un exemplu excelent de sistem neliniar. Își îndeplinește toate funcțiile datorită unei rețele complexe de reacții chimice care transformă materiile prime în produse finite. După cum am văzut în capitolul anterior, structura acestei rețele poate fi descoperită prin metode simboliste, de exemplu, deducția inversă, dar pentru a construi un model complet al activității celulei, este nevoie de o abordare cantitativă: trebuie să aflați parametrii. care conectează nivelul de expresie al diferitelor gene, corelează variabilele de mediu cu variabilele interne și așa mai departe. Acest lucru nu este ușor deoarece nu există o relație liniară simplă între aceste valori. Mai degrabă, celula își menține stabilitatea prin intersectarea buclelor de feedback, iar comportamentul său este foarte complex. Pentru a rezolva această problemă, este potrivită metoda de backpropagation, care este capabilă să învețe eficient funcțiile neliniare. Dacă am avea în mâini o hartă completă a lanțului metabolic și ar avea suficiente date de observație pentru toate variabilele relevante, un model detaliat al celulei ar putea fi teoretic retropropagat, iar perceptronul multistrat ar prezice orice variabilă în funcție de cauzele sale imediate.

Cu toate acestea, în viitorul previzibil, vom avea doar o înțelegere parțială a metabolismului celular și vom putea observa doar o fracțiune din parametrii necesari. Pentru a obține modele utile în fața lipsei de informații și a contradicțiilor inevitabile, sunt necesare metode bayesiene, în care ne vom scufunda în capitolul 6. Același lucru este valabil și pentru predicțiile pentru un anumit pacient, dacă modelul există deja: inferența bayesiană va extrage cel mai mult din imaginea inevitabil incompletă și zgomotoasă. Vestea bună este că, pentru a trata cancerul, nu este necesar să înțelegem funcționarea celulelor tumorale complet și în toate detaliile: este suficient să le facem pur și simplu inofensive fără a deteriora celulele normale. În capitolul 6, vom vedea cum să orientăm corect învățarea, ocolind ceea ce nu știm și nu trebuie să știm.

În stadiul actual, știm că, pe baza datelor și a cunoștințelor anterioare, este posibil să se tragă o concluzie despre structura rețelelor celulare folosind deducția inversă, dar numărul de moduri în care este aplicată generează o explozie combinatorie, deci un fel de strategie. este necesară. Deoarece rețelele metabolice au fost proiectate de evoluție, poate că simularea evoluției în algoritmii de învățare ar fi bine. Vom vedea cum să facem acest lucru în capitolul următor.

Adânc în creier

Când metoda de backpropagation a devenit publică, conecționistii și-au imaginat învățare rapidă tot mai multe rețele până când, dacă hardware-ul permite, ele devin egale cu un creier artificial. S-a dovedit că nu a fost așa. Învățarea rețelelor cu un singur strat ascuns a mers bine, dar după aceea lucrurile s-au complicat mai mult. Rețelele cu mai multe straturi funcționau doar dacă erau proiectate cu atenție pentru o anumită aplicație (de exemplu, recunoașterea caracterelor), iar în afara acestui cadru, propagarea înapoi a eșuat. Pe măsură ce straturile au fost adăugate, semnalul de eroare a diverjat din ce în ce mai mult, ca un râu care se ramifică în canale mici până la picături individuale imperceptibile. Învățarea cu zeci și sute de straturi ascunse, ca în creier, a rămas un vis îndepărtat, iar până la mijlocul anilor 1990, entuziasmul pentru perceptronii multistrat a dispărut. Nucleul conexionist rezistent nu a cedat, dar accentul general s-a mutat către alte domenii ale învățării automate (le vom vedea în capitolele 6 și 7).

Cu toate acestea, astăzi, conexiunea renaște. Educăm rețele mai profunde decât oricând, iar acestea stabilesc noi standarde în viziune, recunoaștere a vorbirii, dezvoltarea medicamentelor și multe altele. Zona noua- deep learning - a apărut chiar pe prima pagină a New York Times, dar dacă ne uităm sub capotă, vom fi surprinși să vedem că acolo bâzâie același vechi motor - o metodă de propagare înapoi a unei erori. Ce sa schimbat? În general, nimic nou, vor spune criticii: doar că computerele au devenit mai rapide și există mai multe date. La aceasta Hinton și alții vor răspunde: „Exact! Aveam perfectă dreptate!”

Într-adevăr, conexioniștii au făcut pași mari. Unul dintre eroii ultimei decolare de pe coasterul conexionismului a fost un mic dispozitiv modest numit autoencoder - un perceptron multistrat, care scoate aceeași ieșire ca și cea primită la intrare. El primește o poză cu bunica ta și afișează aceeași imagine. La prima vedere, aceasta poate părea o idee stupidă: unde poți folosi chestia asta? Dar ideea este că stratul ascuns este mult mai mic decât intrarea și ieșirea, adică astfel încât rețeaua nu poate învăța pur și simplu să copieze intrarea în stratul ascuns și stratul ascuns în ieșire, deoarece în acest caz, dispozitivul nu este bun deloc. Cu toate acestea, dacă stratul ascuns este mic, se întâmplă un lucru interesant: rețeaua este forțată să codifice intrarea cu doar câțiva biți pentru a o reprezenta în stratul ascuns, iar apoi acești biți sunt decodați înapoi la dimensiunea completă. Sistemul poate, de exemplu, să învețe să codifice o imagine de un milion de pixeli a unei bunici cu doar șapte litere - cuvântul „bunica” - sau un cod scurt din propria sa invenție și, în același timp, să învețe să decodeze acest cuvânt într-un poza cu dragul tău pensionar. Astfel, un autoencoder este similar cu un instrument de comprimare a fișierelor, dar are două avantaje: înțelege cum să-l comprima singur și, ca și rețelele lui Hopfield, poate transforma o imagine zgomotoasă, distorsionată într-una bună și curată.

Autoencoderele erau cunoscute încă din anii 1980, dar atunci erau foarte greu de învățat, în ciuda unui singur strat ascuns. Să înțelegi cum să împachetezi o mulțime de informații într-o mână de bucăți este o problemă al naibii de grea (un cod pentru bunica ta, puțin diferit pentru bunicul tău, altul pentru Jennifer Aniston și așa mai departe): peisajul hiperspațial este prea accidentat pentru urcă un vârf bun.iar elementele ascunse trebuie să afle ce alcătuiește excesul de SAU exclusive din intrare. Din cauza acestor probleme, codificatoarele automate nu au prins cu adevărat rădăcini atunci. A fost nevoie de peste un deceniu pentru a depăși dificultățile. A fost inventat următorul truc: stratul ascuns trebuie făcut mai mult decât intrarea și ieșirea. Ce va da? Aceasta este de fapt doar jumătate din soluție: a doua parte este să forțați ca totul, cu excepția unui anumit număr de unități ascunse, să fie oprit în acest moment... Acest lucru încă împiedică stratul ascuns să copieze pur și simplu intrarea și, cel mai important, face învățarea mult mai ușoară. Dacă lăsăm diferiți biți să reprezinte intrări diferite, intrările nu vor mai concura pentru a configura aceiași biți. În plus, rețeaua va avea mult mai mulți parametri, așa că hiperspațiul va avea mult mai multe dimensiuni și, prin urmare, modalități de a ieși din ceea ce ar putea deveni maxime locale. Acest truc ingenios se numește autoencoder rar.

Cu toate acestea, nu am văzut încă o învățare cu adevărat profundă. Următoarea idee dificilă este să stivuiți autoencoderele rare una peste alta ca un sandviș mare. Stratul ascuns al primului devine I/O pentru al doilea și așa mai departe. Deoarece neuronii sunt neliniari, fiecare strat ascuns învață reprezentări de intrare mai complexe pe baza celui precedent. Dacă există un set mare de imagini ale feței, primul codificator automat va învăța să codifice elemente mici de exemplu colțurile și punctele, al doilea va folosi acest lucru pentru a codifica trăsături faciale, cum ar fi vârful nasului și irisul ochiului, al treilea se va ocupa de nasuri și ochi întregi și așa mai departe. În cele din urmă, stratul superior poate fi un perceptron tradițional - va învăța să-ți recunoască bunica după trăsăturile de nivel înalt pe care le oferă stratul de bază. Acest lucru este mult mai ușor decât să folosiți doar datele brute ale unui strat ascuns sau să încercați să vă propagați înapoi prin toate straturile simultan. Google Brain Network, promovat de New York Times, este un sandviș format din nouă straturi de codificatoare automate și alte ingrediente care învață să recunoască pisicile prin videoclipurile YouTube. La acea vreme, această rețea era cea mai mare pregătită vreodată: avea un miliard de conexiuni. Deloc surprinzător, Andrew Ng, unul dintre liderii proiectului, este un susținător înfocat al ideii că mintea umană se rezumă la un singur algoritm și este destul de ușor de găsit. Eun, a cărui manieră suavă ascunde o ambiție incredibilă, este convins că autoencoderele rare cu mai multe niveluri ne pot conduce mai aproape de rezolvarea inteligenței artificiale decât orice am avut până acum.

Codificatoarele automate pe niveluri nu sunt singurul tip de algoritm de învățare profundă. Un altul se bazează pe mașini Boltzmann, există modele ale cortexului vizual pe rețele neuronale convoluționale. Cu toate acestea, în ciuda succeselor remarcabile, toate acestea sunt încă foarte departe de creier. Rețeaua Google poate recunoaște fața unei pisici doar pe toată fața, iar o persoană recunoaște o pisică în orice poziție, chiar dacă se întoarce cu totul. În plus, rețeaua Google este încă destul de mică, autoencoderele formând doar trei dintre cele nouă straturi ale sale. Perceptronul multistrat este un model satisfăcător al cerebelului, partea a creierului responsabilă pentru controlul mișcărilor la nivel scăzut. Cu toate acestea, cortexul cerebral este o chestiune complet diferită. Îi lipsește, de exemplu, feedback-ul necesar pentru a propaga o eroare și, totuși, în cortex are loc adevărata magie a învățării. În cartea sa Despre inteligență, Jeff Hawkins susține dezvoltarea unor algoritmi bazați pe replicarea îndeaproape a structurii cortexului cerebral, dar niciunul dintre acești algoritmi nu poate concura încă cu rețelele profunde de astăzi.

Pe măsură ce obținem o mai bună înțelegere a creierului, acest lucru se poate schimba. Inspirată de Proiectul Genomului Uman, o nouă disciplină - conectomica - urmărește să cartografieze toate sinapsele creierului. Uniunea Europeană a investit miliarde de euro în construirea unui model cu drepturi depline, iar programul american BRAIN, care are obiective similare, a primit finanțare de 100 de milioane de dolari abia în 2014. Cu toate acestea, simboliștii sunt foarte sceptici cu privire la această cale către Algoritmul Suprem. Chiar dacă ne imaginăm întregul creier la nivelul sinapselor individuale, va fi nevoie (ce ironie) de algoritmi de învățare automată mai avansați pentru a transforma această imagine în diagrame de circuit: să o faci manual este exclusă. Mai rău, chiar și cu o hartă completă a creierului, vom fi în continuare lipsiți de modul în care funcționează. Sistemul neuronal al viermelui Caenorhabditis elegans, care constă din doar 302 neuroni, a fost cartografiat complet încă din 1986, dar încă îi înțelegem activitatea doar fragmentar. Pentru a înțelege ceva într-o mlaștină de mici detalii și pentru a „elimina” detaliile specifice omului și doar ciudateniile evoluției, sunt necesare concepte de nivel superior. Nu construim avioane prin inginerie inversă a penelor de păsări, iar avioanele nu bat din aripi, dar proiectarea unui avion se bazează pe aceleași principii de aerodinamică care sunt aceleași pentru toate obiectele zburătoare. Încă nu avem principii de gândire similare.

Poate că conectomica ajunge la extreme: se zvonește că unii conectiști susțin că retropropagarea este algoritmul suprem: trebuie doar să măriți. Dar simboliștii ridiculizează aceste puncte de vedere și prezintă o listă lungă de ceea ce pot face oamenii, dar rețelele neuronale nu pot. Luați, de exemplu, „bunul simț”, care presupune combinarea unor informații care, poate, nu au mai fost niciodată aproape. Maria mănâncă pantofi la prânz? Ea nu mănâncă pentru că este umană, oamenii mănâncă doar lucruri comestibile, iar pantofii sunt necomestibile. Sistemele simbolice se descurcă fără probleme - formează pur și simplu lanțuri de reguli corespunzătoare - dar perceptronii multistrat nu pot face acest lucru și, după ce au învățat, vor calcula aceeași funcție fixă ​​din nou și din nou. Rețelele neuronale nu sunt compoziționale, dar compoziționalitatea este un element esențial al cunoașterii umane. O altă mare problemă este că atât oamenii, cât și modelele simbolice, precum seturile de reguli și arborii de decizie, sunt capabili să-și explice raționamentul, în timp ce rețelele neuronale sunt munți mari de numere pe care nimeni nu le poate înțelege.

Dar dacă o persoană are toate aceste abilități și creierul nu le învață alegând sinapsele, de unde provin ele? Nu crezi în magie? Atunci răspunsul este „evoluție”. Un critic aspru al conexionismului trebuie să-și dea seama cum evoluția a învățat tot ce știe un copil la naștere - și cu cât atribuim mai mult abilităților înnăscute, cu atât sarcina este mai dificilă. Dacă reușiți să înțelegeți toate acestea și să programați computerul pentru a îndeplini o astfel de sarcină, ar fi foarte nepoliticos să vă refuzi laurii inventatorului Algoritmului Suprem - cel puțin una dintre variantele acestuia.

Nevrita (un proces cilindric lung al unei celule nervoase), prin care semnalele de ieșire (impulsurile nervoase) sunt transmise de la corpul celular la organele inervate și la alte celule nervoase.

William James (1842-1910) - filozof și psiholog american, unul dintre fondatorii și reprezentantul principal al pragmatismului și funcționalismului.

Frank Rosenblatt (1928-1969) este un om de știință american celebru în domeniul psihologiei, neurofiziologiei și inteligenței artificiale.

Joseph Alois Schumpeter (1883-1950) - economist, politolog, sociolog și istoric al gândirii economice austriac și american.

Ronald Williams este profesor de informatică la Universitatea Northeastern din Boston și unul dintre pionierii rețelelor neuronale.

Concurs de mașini robot finanțat de guvernul SUA. Scopul acestei competiții este de a crea vehicule complet autonome.

Actriță americană cunoscută pentru rolul său ca Rachel Greene din serialul de televiziune Friends, pentru care a câștigat premii Emmy și Globul de Aur.

Despre carte

Pedro Domingos, unul dintre cercetătorii de frunte în acest domeniu, ridică cortina și, pentru prima dată, vorbește despre...

Citiți complet

Despre carte
O carte populară și interesantă despre găsirea unui algoritm universal de auto-învățare de la un om de știință practicant.

Algoritmii ne conduc viețile. Ei găsesc cărți, filme, locuri de muncă și parteneri pentru noi, ne gestionează investițiile și dezvoltă noi medicamente. Acești algoritmi sunt antrenați din ce în ce mai mult pe baza seturilor de date pe care le lăsăm în urmă în lumea digitală modernă. Asemenea copiilor curioși, ei ne urmăresc, imită și experimentează. Și în laboratoare și universități de vârf lucrează la crearea principalului algoritm de auto-învățare care poate extrage orice cunoaștere din date și poate rezolva orice probleme - chiar înainte de a le formula.

Învățarea automată permite roboților și computerelor inteligenți să se programeze singuri. Este una dintre cele mai importante tehnologii de astăzi - și una dintre cele mai misterioase.

Pedro Domingos, unul dintre cercetătorii de top în domeniu, ridică cortina și vorbește despre acest domeniu de cunoaștere pentru prima dată, prezentând cititorilor cele 5 școli principale de învățare automată și arătând cum folosesc ideile din neurobiologie, biologia evoluționistă, fizică. și statistici pentru a crea algoritmi care să ne ajute.

Pe parcurs, el vorbește despre ideea unui algoritm universal de auto-învățare și despre modul în care te va schimba pe tine, afacerile, știința și întreaga societate.

De la autor
Algoritmul suprem va putea extrage toate cunoștințele din datele în general - cunoștințe despre trecut, prezent și viitor. Invenția acestui algoritm va fi una dintre cele mai mari descoperiri din istoria științei. Va accelera progresul în orice, va schimba lumea într-un mod pe care cu greu ni-l putem imagina astăzi. Algoritmul suprem pentru învățarea automată este ceva asemănător cu modelul standard în fizica particulelor și dogma centrală a biologiei moleculare: o teorie unificată care explică tot ceea ce știm astăzi și pune bazele deceniilor sau secolelor de progres viitor. Algoritmul Suprem este cheia pentru rezolvarea celor mai dificile probleme cu care se confruntă omenirea, de la crearea roboților domestici până la tratarea cancerului.

Pentru cine este această carte
Pentru cei interesați de învățarea automată și inteligența artificială.

Și pentru oricine vrea să știe despre ce se întâmplă la vârful științei.

Despre autor
Pedro Domingos este profesor la Universitatea din Washington și un expert de top în învățarea automată și inteligența artificială. A scris o carte și multe articole științifice. Domingos este laureat al mai multor premii profesionale.

Algoritmul Suprem.

Această carte este un studiu despre învățarea automată de la un om de știință practic, pentru cei care sunt interesați de inteligența artificială, de vârful științei, de principiile auto-învățarii eficiente. Să facem o călătorie în informatica inovatoare! Minunat lume nouaÎnvățare automată - Faceți cunoștință cu noi!

Învățarea automată este una dintre cele mai transformatoare tehnologii care ne va modela viața în următoarele două decenii. Această carte este lectura obligatorie a omului modern- o privire îndrăzneață și frumoasă asupra noului cadru al viitorului. Aceasta este o carte incredibil de importantă și utilă, deoarece învățarea automată are deja un impact esențial asupra vieților și muncii noastre și vor urma doar altele. Dacă ești curios despre modul în care inteligența artificială îți schimbă viața, citește această carte. "Pe langa subiect" pur și simplu este imposibil să fii.


Hârtie albă legată grea.

Nu ne gândim mereu la asta astăzi, dar algoritmii ne guvernează deja viețile... Ei selectează și recomandă cărți, filme, locuri de muncă pentru noi, ne gestionează investițiile și dezvoltă noi medicamente. Acești algoritmi sunt antrenați din ce în ce mai mult pe baza seturilor de date pe care le lăsăm în urmă în lumea digitală modernă. Ei ne observă, imită și experimentează, trag concluzii și încep să ne influențăm. Laboratoare și universități de vârf lucrează pentru a crea principalul algoritm de auto-învățare care poate obține orice cunoștințe din date și poate rezolva orice problemă - înainte de a o formula.

Autorul reușește nu numai să prezinte o călătorie precisă și distractivă în ideile metodologice care stau la baza învățării automate, ci și să implementeze aceste idei. în întrebări filozofice referitor la capacitatea ultimă a unei persoane de a-și imita propriul fel. O lectură obligatorie atât pentru realiști, cât și pentru futuriști.

Învățarea automată permite roboților și computerelor inteligenți să se programeze singuri. Este una dintre cele mai importante tehnologii de astăzi - și una dintre cele mai misterioase. Învățarea automată este o lume fascinantă care nu a fost niciodată văzută de străini non-profesioniști. Acum te vede și tu îl poți înțelege.


Limita informaticii este o mașină care se poate învăța singură, ca și noi, oamenii, extragând noi cunoștințe din experiență. Învățarea automată ne poate ajuta să facem totul, de la tratamente pentru cancer la construirea de roboți umanoizi. Pedro Domingos demistifică învățarea automată și arată cât de interesant va fi viitorul.

Există manuale pe această temă astăzi care sunt prea tehnice pentru a fi ușor disponibile. Pentru cei din mijloc - de la directori la studenți - aceasta este cartea perfectă care arată cum și de ce funcționează cu adevărat, fără matematica complicată. Spre deosebire de alte cărți care proclamă un viitor luminos, această carte de fapt ne face să înțelegem schimbările care au loc deja.


Pedro Domingos - unul dintre cercetătorii de frunte în acest domeniu - ridică vălul secretului și pentru prima dată într-un mod accesibil vorbește despre acest domeniu de cunoaștere, introducând cititorii în 5 școli majore de învățare automatăși arătând cum folosesc idei din neuroștiință, biologie evolutivă, fizică și statistică pentru a crea algoritmi care ajută oamenii.

Veți deschide ușa către o lume pe care înainte mulți dintre noi nu o puteam vedea și nici măcar să ne gândim la ea și are un impact uriaș asupra vieții noastre de zi cu zi.

Cum toate acestea vă vor schimba personal, afacerile, știința și întreaga societate - citiți în carte.

Cartea a fost publicată în Rusia de editură Mann, Ivanov și Ferberîn 2016.

Algoritmul suprem va putea extrage toate cunoștințele din datele în general - cunoștințe despre trecut, prezent și viitor. Invenția acestui algoritm va fi una dintre cele mai mari descoperiri din istoria științei. Va accelera progresul în orice, va schimba lumea în moduri pe care cu greu ni le putem imagina astăzi. Algoritmul suprem pentru învățarea automată este ceva ca modelul standard din fizica particulelor și dogma centrală a biologiei moleculare: o teorie unificată care explică tot ceea ce știm astăzi, și punând bazele de zeci de ani sau secole de progrese viitoare... Algoritmul Suprem este cheia pentru rezolvarea celor mai dificile probleme cu care se confruntă omenirea, de la crearea roboților domestici până la tratarea cancerului.

Pedro Domingos

Această carte oferă o privire de ansamblu mai bunăîntregul domeniu al învățării automate decât orice altă carte care există astăzi. Alte cărți descriu de obicei diferența dintre tipurile de sisteme, dar această carte merge mai departe comparând, să zicem, arbori de decizie, mașini vectori de suport și rețele neuronale profunde, explicând în ce domeniu de statistică joacă un rol mai important decât altele.


Argumente din neurobiologie.

Cartea prezintă multe metode într-o perspectivă istorică: creșterea, scăderea și re-creșterea rețelelor neuronale profunde, SVM, discuția dintre frecvența și statistica bayesiană și altele. În cele din urmă, autorul precizează că aceste metode nu concurează neapărat pentru a fi cele mai bune în toate, ci că pot fi folosite. împreunăÎn timp ce se completează reciproc, fiecare metodă are avantaje unice în anumite zone problematice. aceasta mod bun gândiți-vă la ceea ce putem realiza cu toții: lucrari de constructie, sisteme software adaptive care necesită din ce în ce mai puțină asistență umană.

Această carte va fi de interes în primul rând pentru cei care au o educație tehnică și interese, ale căror activități sunt legate de calculatoare și programare. Primele capitole vor fi o lectură grozavă pentru toată lumea, chiar și pentru adolescenți, vor arăta principii generale dezvoltare modernă tradiţional softwareși automatizare, iar mai târziu în carte vom vedea detaliile.

Nivelul de profunzime și detaliu din carte este ideal - este destul de ușor de citit și oferă o imagine completă a această problemă... Lectură erudită, cu umor - despre cele mai avansate tehnologii! Va fi interesant atât pentru cei care sunt doar curioși, cât și pentru cei care sunt interesați să își construiască o carieră în acest domeniu. Descrieri și discuții fără jargon dificil, exemple interesante sunt clare și accesibile. Această carte este atât lectură distractivă pentru cei interesați, cât și educațional: vei învăța și vei înțelege multe.

Veți învăța despre 5 tipuri de învățare nesupravegheată, învățare consolidată, fragmentare și învățare relațională etc. Cartea culminează cu hartă circulară a algoritmului principal... În fiecare subiect, autorul vorbește despre cele mai importante idei, algoritmi și programe. Autorul explică foarte bine în câteva fraze simple esența algoritmilor avansați, valoarea funcției de aproximare în antrenament, transmiterea mesajelor, MCMC, filtrarea Kalman Bayesian etc.


Joc de douăzeci de întrebări.

Domingos dă o excursie la cinci tipuri diferiteînvățarea automată (evoluționari, conecționiști, simboliști, bayesieni și analogi), cum se conectează și care este istoria lor.

Dacă nu sunteți familiarizat cu învățarea automată, această carte este o prezentare generală amplă și interesantă. Uneori discuția devine destul de tehnică, va fi de înțeles pentru profesioniști, dar în general cartea este disponibilă pentru citirea tuturor.

Rețele neuronale, algoritmi genetici și multe altele - toate acestea nu sunt de fapt atât de greu de înțeles (deși, desigur, uneori este dificil de implementat) și ce este, astăzi, poate, toată lumea ar trebui să știe.

În fotografia din articol și mai jos - exemple de pagini ale cărții.