Kāpēc lstm atrisina izzūdošo gradientu?

Satura rādītājs:

Kāpēc lstm atrisina izzūdošo gradientu?
Kāpēc lstm atrisina izzūdošo gradientu?

Video: Kāpēc lstm atrisina izzūdošo gradientu?

Video: Kāpēc lstm atrisina izzūdošo gradientu?
Video: Finance with Python! Portfolio Diversification and Risk 2024, Novembris
Anonim

LSTM atrisina problēmu, izmantojot unikālu piedevu gradienta struktūru, kas ietver tiešu piekļuvi aizmirst vārtu aktivizējumiem, ļaujot tīklam veicināt vēlamo kļūdu gradienta darbību, izmantojot biežu vārtu atjaunināšanu. katrā mācību procesa solī.

Kā LSTM atrisina sprādzienbīstamu gradientu?

Ļoti īsa atbilde: LSTM atdala šūnas stāvokli (parasti apzīmē ar c) un slēpto slāni/izvadi (parasti apzīmē ar h) un veic tikai papildu atjauninājumus c, kas padara atmiņas c pozīcijā stabilākas. Tādējādi gradients, kas plūst cauri c, tiek saglabāts un grūti pazust (tādēļ kopējo gradientu ir grūti pazust).

Kā var atrisināt izzūdoša gradienta problēmu?

Risinājumi: Vienkāršākais risinājums ir izmantot citas aktivizācijas funkcijas, piemēram, ReLU, kas neizraisa mazu atvasinājumu. Atlikušie tīkli ir vēl viens risinājums, jo tie nodrošina atlikušos savienojumus tieši ar iepriekšējiem slāņiem.

Kādu problēmu LSTM atrisina?

LSTMs. LSTM (saīsinājums no ilgtermiņa īstermiņa atmiņa) galvenokārt atrisina izzūdošā gradienta problēmu atpakaļejā pavairošanā. LSTM izmanto vārtu mehānismu, kas kontrolē iegaumēšanas procesu. Informāciju LSTM var saglabāt, rakstīt vai lasīt, izmantojot vārtus, kas atveras un aizveras.

Kāpēc LSTM neļauj jūsu gradientiem pazust skatam no atpakaļgaitas pārejas?

Iemesls ir tāpēc, ka, lai ieviestu šo pastāvīgo kļūdu plūsmu, gradienta aprēķins tika saīsināts, lai netiktu plūst atpakaļ uz ievades vai kandidātvārtiem.

Ieteicams: