:

Szerző: Dömös Zsuzsanna

2024. április 25. 14:34

Nyílt forráskódú nyelvi modellt tett közzé az Apple

Végponti eszközökön futó LLM-et tett közzé a cupertinói óriás az Hugging Face Hubon, nyolc változatban.

A nem éppen nyitottságáról ismert Apple generatív AI-modellt jelentett be OpenELM (Open-source Efficient Language Model) néven, ami részben felülmúlja a nyilvános adathalmazokon kiképzett más kis méretű modelleket. A cupertinói cég a nyitottságot olyan értelemben komolyan veszi, hogy nem csak a modellt, de annak képzési és értékelési keretrendszerét is közzéteszi, a képzési naplókkal, ellenőrző pontokkal és előzetes tanulási konfigurációkkal együtt. Az LLM összesen nyolcféle változatban, 270 millió, 450 millió, 1,1 milliárd és 3 milliárd paraméteres, négy előre kiképzett, valamint négy utasításokkal hangolható változatban érhető el.

Az OpenELM a rétegenként skálázásnak nevezett technikát használja a paraméterek hatékonyabb kiosztására a transzformátormodellben. Tehát ahelyett, hogy minden réteget ugyanakkora paraméterkészlet jellemezne, az OpenELM transzformátorrétegei eltérő konfigurációkkal és paraméterekkel rendelkeznek, ami javítja a pontosságot. A kutatók elmondása szerint az OpenELM képzési adathalmazában megtalálhatók többek közt a GitHub RedPajama, a Wikipédia, a StackExchange, a Reddit, a Wikibooks, a Project Gutenberg platformok adatai és bejegyzései.

apple_(1)

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét!

A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

Nyerd meg az 5 darab, 1000 eurós Craft konferenciajegy egyikét! A kétnapos, nemzetközi fejlesztői konferencia apropójából a HWSW kraftie nyereményjátékot indít.

A nagy nyelvi modellhez kapcsolódó szoftverkiadás nem minősül nyílt forráskódúnak, az Apple egyértelművé teszi, hogy fenntartja a jogot szabadalmi kereset benyújtására, amennyiben az OpenELM-en alapuló származékos munka jogokat sért. Az OpenELM-et érdekesebbé teheti a fejlesztők számára, hogy együttműködik a gépi tanulásos műveletek futtatására készített MLX keretrendszerrel az Apple eszközein, ideális ideális mobilalkalmazásokhoz és korlátozott számítási teljesítménnyel rendelkező IoT-eszközökhöz.

Az Apple rendszerint hangsúlyozza saját fejlesztésű chiparchitektúrájának előnyeit a gépi tanulásos fejlesztésekhez, és bár az OpenELM a pontosságot mérő benchmarkokon magasabb pontszámot ért el a többi, hasonló paraméterekkel dolgozó modellnél, teljesítményben alulmarad: lassabb például az Allen Institute által is támogatott OLMo-nál (Open Language Model), és ez igaznak bizonyult az Nvidia CUDA Linux rendszeren, valamint az Apple Silicon-alapú MLX-verziós teszteknél is.

A cupertinói cég kommunikációjában azt a küldetést hangsúlyozza, hogy a modellekkel a „nyílt kutatóközösség a legmodernebb nyelvi modellekkel gazdagodik”, és hamarabb kiderülhetnek a kockázatok, torzítások a fejlesztői közösségnek köszönhetően. Persze érdemes hozzátenni, hogy ezzel az Apple is könnyebben rátalálhat a saját elképzeléseihez és terveihez illeszkedő szakemberekre, mérnökökre és kutatókra.

Milyen technológiai és munkaerőpiaci hatások érhetik a backendes szakmát? Május 8-án végre elindul az idei kraftie! meetup-sorozat is (helyszíni vagy online részvétellel).

a címlapról

Hirdetés

Security témákkal folyatódik az AWS hazai online meetup-sorozata!

2024. április 29. 15:03

A sorozat május 28-i, harmadik állomásán az AWS-ben biztonsági megoldásait vesszük nagyító alá. Átnézzük a teljes AWS security portfóliót a konténerbiztonságtól a gépi tanulásos alkalmazások védelmén át, egészen az incidenskezelésig.