seleccionar pàgina

Aspectes matemàtics de l'aprenentatge algorítmic i xarxes neuronals profundes

    Dates

Octubre i novembre de 2021 (sis setmanes en total), dimarts i dijous. Cada sessió començarà a les 16:00 CEST i finalitzarà a les 18:30 CEST, amb un descans de 30 minuts.

 

*** 21 d'octubre / 16 de novembre: 14:00 – 16:30

    Ubicació

En línia a través de ZOOM.

abstracte 

L'objectiu principal de l'assignatura és descriure la naturalesa de l'aprenentatge algorítmic (AL), de les seves modalitats més rellevants i aplicacions més reeixides, juntament amb una presentació dels principals ingredients matemàtics que proporcionen la base tant per a la definició com per a l'estudi de models i per a l'anàlisi dels algorismes. Al llarg del camí, es destacaran les preguntes i problemes oberts.

L'assignatura pretén que els estudiants de grau o de grau superior, amb coneixements de temes matemàtics bàsics (càlcul diferencial i integral en diverses variables, teoria de probabilitats, àlgebra i geometria), però amb poc o nul coneixement d'AL, esdevinguin. raonablement a gust amb les seves tendències, èxits, problemes oberts i publicacions actuals.

Presentation

Hi haurà dotze sessions de 2 hores previstes per a les tres primeres setmanes d'octubre i novembre de 2021, amb una sessió el dimarts i una altra el dijous per a cadascuna de les sis setmanes. Cada sessió començarà a les 16:00 CEST i acabarà a les 18:30 CEST, amb un descans de 30 minuts després de la primera hora.

La taula següent (Resum) ofereix una breu descripció de cada sessió, el dia en què s'impartirà i el nom del ponent.

Itinerari

sessió Data Temes Altaveu
1

dimarts,

octubre 5

16:00 h: Presentació del curs a càrrec de Lluís Alsedà, director CRM, i Carme Cascante, directora de BGSMath.

Esquema informal i alguns temes de fons

Diapositives 1 / Diapositives 2

SX
2

Dj,

octubre 7

La maledicció de la dimensionalitat. NN i propietats d'aproximació

Diapositives

JB
3

Dim.,

octubre 13

Reproduint espais de Hilbert del nucli

Diapositives

SX
4

Dj,

octubre 14

Descens del gradient i aproximació estocàstica

Diapositives

SX
5

dimarts,

octubre 19

Dinàmiques d'entrenament: règim mandros i Kernel de tangent neuronal

Diapositives

SX
6

Dj,

octubre 21

Dinàmiques d'entrenament: règim actiu i descripció del camp mitjà

Diapositives

JB
7

dimarts,

novembre 2

Conceptes bàsics de teoria de grups i geometria diferencial. Teorema de Noether

Diapositives 1 / Diapositives 2

SX
8

Dj,

novembre 4

Més enllà dels espais de Barron: estabilitat geomètrica JB
9

dimarts,

novembre 9

Anàlisi harmònica: Fourier, Wavelets, Gràfics transformades espectrals

Diapositives

SX
10

Dj,

novembre 11

La transformació de dispersió JB
11

dimarts,

novembre 16

Més enllà dels dominis euclidians: el 5G

***14:00h

JB
12

Dj,

novembre 18

Problemes oberts i comentaris finals JB

Programa i referències bàsiques per a cada sessió

1 Esquema informal i alguns temes de fons
Esquema informal. Referències generals. Tècniques d'optimització, amb èmfasi en el cas convex. Exemples. Un model d'aprenentatge inductiu. Observacions sobre recursos computacionals.
Referències: [1], [2], [3], [4], [5].

2 Xarxes neuronals i les seves propietats d'aproximació. La maledicció de la dimensionalitat
La maledicció de la dimensionalitat en l'aprenentatge estadístic. Classes d'hipòtesis de Lipschitz i Sobolev. De l'aproximació de funcions de baixa dimensió a alta dimensió. Teoremes d'aproximació polinòmica. Teoremes d'aproximació universal. Xarxes neuronals superficials.
Referències: [1], [6].

3 Reproducció dels espais Hilbert del nucli
Nuclis. Nuclis definits positius. El truc del nucli. Propietats dels nuclis. L'espai de Hilbert reproduït associat a un nucli. Exemples de nuclis. El teorema del representador. Aprenentatge amb nuclis.
Referències: [7], [8], [9], [10], [11], [12], [13], [14], [15], [16].

4 Descens del gradient i aproximació estocàstica
Optimització per descens de gradients. GD amb impuls. Mètodes d'optimització estocàstics versus lots. Aproximació del gradient estocàstic. Gradient reduït de la variància estocàstica. Algorismes.
Referències: [17], [2], [4].

5 Dinàmiques d'entrenament: règim lazy i Neural TangentKernel (NTK)
Gradient del nucli. Nucli tangent neural. Entrenament mandrós. Convergència del SGD.
Referències: [18], [19], [20].

6 Dinàmiques d'entrenament: règim actiu i descripció del camp mitjà
Sistemes d'interacció de partícules i límits termodinàmics. Límits sobreparametrats de xarxes neuronals poc profundes: l'espai Barron. Fluxos de gradient de Wasserstein i mesurar la dinàmica del transport. Propietats de convergència global. Preguntes obertes.
Referències: [21, 22, 23].

7 Teoria de grups i conceptes bàsics de geometria diferencial. Teorema de Noether.
Varietats diferencials. Grups de Lie i àlgebres de Lie. Mecànica lagrangiana i hamiltoniana. Simetries en sistemes físics i magnituds conservades. Teorema de Noether.
Referències: [24], [25], [26], [27], [28], [29], [30], [31], [32].

8 Més enllà dels espais de Barron: estabilitat geomètrica
Maledicció de la dimensionalitat per a Barron Spaces. Aprenentatge automàtic geomètric, dominis geomètrics i priors geomètrics. Exemples: quadrícules, gràfics, indicadors, grups, geodèsics. Invariància, equivariància i separació d'escala.
Referències: [31].

9 Anàlisi harmònica: Fourier, Wavelets, Gràfics transformades espectrals.
Resum de l'anàlisi de Fourier. Base de Gabor. La transformada wavelet. Anàlisi multiresolució. La transformada ràpida d'ondelets. Tècniques espectrals sobre gràfics.
Referències: [33], [34], [35], [36], [31].

10 La transformació de dispersió
Inestabilitat dels invariants de Fourier. Estabilitat dels equivariants Wavelet. Ajuntant-ho tot: transformada de dispersió d'onades. Principals propietats matemàtiques: estalvi d'energia i estabilitat a la deformació. Exemples. Problemes oberts.
Referències: [37, 38].

11 Més enllà dels dominis euclidians
El pla d'aprenentatge profund geomètric. Aplicació a dominis geomètrics: quadrícules, grups, gràfics, gauges, geodèsics. Xarxes neuronals de gràfics, xarxes neuronals convolucionals. Problemes oberts.
Referències: [31].

12 Observacions de cloenda
En aquesta darrera conferència, tancarem el curs lligant els problemes oberts que es veuen al llarg de les conferències i esbossarem direccions clau de recerca obertes. El paper de la profunditat. Límits inferiors computacionals.

referències

[1] S. Shalev-Shwartz i S. Ben-David, Understanding machine learning: From theory to algorithms. Cambridge University Press, 2014.

[2] S. Bubeck, "Optimització convexa: algoritmes i complexitat", Foundations and Trends® in Machine Learning, vol. 8, no. 3-4, pàgines 231–358, 2015. arXiv: 1405.4980.

[3] I. Goodfellow, Y. Bengio i A. Courville, Deep learning. MIT Press, 2016.

[4] L. Bottou, FE Curtis i J. Nocedal, "Mètodes d'optimització per a l'aprenentatge automàtic a gran escala", Siam Review, vol. 60, no. 2, pàgines 223–311, 2018. https://arxiv.org/pdf/1606.04838. pdf.

[5] J. Bruna i S. Xambó-Descamps, “Aprenentatge algorísmic i xarxes neuronals profundes”, BUTLLETÍ DE LA SCM, vol. 36, núm. 1, pàgs. 5–67.

[6] M. Telgarsky, Teoria de l'aprenentatge profund. https://mjt.cs.illinois.edu/dlt/, 2020.

[7] T. Hofmann, B. Schölkopf i AJ Smola, "A review of kernel methods in machine learning", Mac-Planck-Institute Technical Report, vol. 156, 2006.

[8] T. Hofmann, B. Schölkopf i AJ Smola, “Kernel methods in machine learning”, The Annals of Statistics, pàg. 1171–1220, 2008.

[9] S. Haykin, Xarxes neuronals i màquines d'aprenentatge. Pearson, 2009.

[10] S. Marsland, Machine learning: an algorithmic perspective (segona edició). Aprenentatge automàtic i reconeixement de patrons, Chapman i Hall/CRC, 2015.

[11] M. Belkin, D. Hsu, S. Ma i S. Mandal, "Reconciliing modern machine learning and the biasvariance trade-off", 2018. https://arxiv.org/pdf/1812.11118.pdf

[12] M. Mohri, A. Rostamizadeh i A. Talwalkar, Fonaments de l'aprenentatge automàtic. MIT Press, 2018.

[13] MJWainwright, High-dimensional statistics: A non-asymptotic viewpoint, vol. 48 de Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019.

[14] MM Wolf, "Fundaments matemàtics de l'aprenentatge supervisat", 2020. "Notes de conferència en creixement": https://www-m5.ma.tum.de/foswiki/pub/M5/Allgemeines/MA4801_2020S/ML_notes_main.pdf

[15] F. Bach, “Learning theory from first principles, draft”, 2021. https://www.di.ens.fr/~fbach/ltfp_book.pdf

[16] B. Ghojogh, A. Ghodsi, F. Karray i M. Crowley, "Reproducing Kernel Hilbert Space, Mercer's Theorem, Eigenfunctions, Nyström Method, and Use of Kernels in Machine Learning: Tutorial and Survey", 2021. arXiv: 2106.08443.

[17] H. Robbins i S. Monro, "Un mètode d'aproximació estocàstica", The Annals of Mathematical Statistics, pàgs. 400–407, 1951.

[18] A. Jacot, F. Gabriel i C. Hongler, "Neural tangent kernel: Convergence and generalization in neuronal networks", Advances in Neural Information Processing Systems, pàg. 8571–8580, 2018. arXiv: 1806.07572.

[19] L. Chizat, E. Oyallon i F. Bach, "On lazy training in diferenciable programming", 2020. arXiv:1812.07956,v5.

[20] J. Berner, P. Grohs, G. Kutyniok i P. Petersen, "The modern mathematics of deep learning", 2021. arXiv: 2105.04026.

[21] G. Rotskoff i E. Vanden-Eijnden, "Parameters as interacting partcules: long time convergence and asymptotic error scaling of neuronal networks", a Advances in Neural Information Processing Systems, pàg. 7146–7155, 2018.

[22] S. Mei, A. Montanari i P.-M. Nguyen, "Una vista de camp mitjana del paisatge de les xarxes neuronals de dues capes", Actes de l'Acadèmia Nacional de Ciències, vol. 115, núm. 33, pàgines E7665–E7671, 2018.

[23] L. Chizat i F. Bach, "On the global convergence of gradient descent for over-parameterized models using optimal transport", a Advances in Neural Information Processing Systems, pàg. 3036–3046, 2018.

[24] R. Abraham, JE Marsden i T. Ratiu, Manifolds, tensor analysis, and applications, vol. 75 de Ciències Matemàtiques Aplicades. Springer, 1988.

[25] P. Bamberg i S. Sternberg, A Course in Mathematics for Students of Physics: Volum 2, vol. 2. Cambridge University Press, 1988.

[26] D. Bleecker, Teoria de gauge i principis variacionals. Dover, 2005.

[27] GB Folland, Quantum Field Theory: A tourist guide for mathematicians, vol. 149 d'Enquestes i Monografies Matemàtiques. American Mathematical Soc., 2008.

[28] T. Frankel, La geometria de la física: una introducció. Cambridge University Press, 2011.

[29] C. Lavor, S. Xambó-Descamps i I. Zaplana, A Geometric Algebra Invitation to Space-Time Physics, Robotics and Molecular Geometry. SBMA/Springerbrief, Springer, 2018.

[30] S. Xambó-Descamps, Reals grups spinorials—una breu introducció matemàtica. SBMA/Springerbrief, Springer, 2018.

[31] MM Bronstein, J. Bruna, T. Cohen i P. Veli ckovi´c, “Geometric deep learning: Grids, groups, graphs, geodèsics, and gauges”, 2021. https://arxiv.org/abs/2104.13478

[32] T. Cohen, Equivariant Convolutional Networks. Tesi doctoral, 2021.

[33] MJ Mohlenkamp i MC Pereyra, Wavelets, els seus amics, i el que poden fer per tu, vol. 8 de Conferències de Matemàtiques. Societat Europea de Matemàtiques, 2008.

[34] M. Stephane, A wavelet tour of signal processing: The sparse way (tercera edició). Elsevier, 2009.

[35] DK Hammond, P. Vandergheynst i R. Gribonval, "The spectral graph wavelet transform: Fundamental theory and fast computation", a Vertex-Frequency Analysis of Graph Signals, pàgs. 141–175, Springer, 2019.

[36] B. Ghojogh, A. Ghodsi, F. Karray i M. Crowley, "La reducció de la dimensionalitat basada en laplaci, inclosa l'agrupació espectral, mapa propi de laplaci, projecció de preservació de localitats, incrustació de gràfics i mapa de difusió: tutorial i enquesta", 2021. . arXiv: 2106.02154.

[37] J. Bruna i S. Mallat, "Invariant scattering convolution networks", IEEE transactions on pattern analysis and machine intelligence, vol. 35, núm. 8, pàgines 1872–1886, 2013.

[38] S. Mallat, “Group invariant scattering”, Communications on Pure and Applied Mathematics, vol. 65, núm. 10, pàgines 1331–1398, 2012.

els organitzadors
Joan Bruna i Estrach
Courant Institute i el Center for Data Science de la Universitat de Nova York
Sebastià Xambó-Descamps
Universitat Politècnica de Catalunya