Digitália

2024.11.30. 06:00

Régimódi? Használjon papírt, a számítógép mégis segíteni fog (videó)

Elkészült a „Feels Like Paper!” nevű, papíron használható mesterséges intelligencia felület.

Feels Like Paper!

Forrás: Lucas Moreau

A számítógépekkel ellentétben a papírról sokan úgy tartják, hogy sokkal jobb könyvolvasásra, egyszerű jegyzetek és emlékeztetők készítésére. Lucas Moreau kifejlesztette a „Feels like Paper!”-t, ami lehetővé teszi mesterséges intelligencia használatát kézírással, közvetlenül a papíron.

A „Feels like Paper” sorozat három prototípusból áll: „Maths & Questions”, „Mark & Comment” és „Draw & Dream”.

A Maths & Questions app lehetővé teszi a felhasználóknak, hogy matematikai képleteket írjanak papírra, miközben MR (mixed reality) fejhallgatót viselnek: a papíron megjelennek a számítási eredmények. A rendszer az Apple Vision Framework API-ját használva matematikai képleteket használ, automatikusan felismeri az egyenlőségjeleket és a kérdőjeleket, és elküldi az olvasott képleteket egy nagyszabású nyelvi modellnek az eredmények kiszámításához. Nézzük csak:

A kézzel írt betűk animációját Moreau szerint „mintha egy barátságos szellem írná”.

Ha a felhasználó jelölővel kiemel egy papírra írt mondatot, a számítógépen ugyanaz a mondat valós időben kijelölődik.

Ha valaki beszéd közben a kisujjával érinti a papírt, a hangot automatikusan rögzítik, és az AI Whisper átírja digitálisra. A megjegyzések automatikusan megjelennek a kiemelések felett.

Ezen kívül a Mark &  Comment” feldolgozás során, miután OpenCV használatával optikai karakterfelismerő folyamattal konvertálták az írást, elég kézírásban válaszolni, a  GPT-4o besegít.

A „Draw & Dream” alkalmazás valós időben konvertálja a papírra kézzel rajzoltakat a számítógépen videóvá. Úgy működik, a felhasználó által rajzolt kép automatikusan bekerül az AI StreamDiffusion képgeneráló rendszerbe, amely a promptnak (leírt parancsnak) megfelelően generálja a képet. Ennek a generált képnek a videója valós időben jelenik meg a Unity alkalmazáson keresztül.

Morrow képfeldolgozó folyamatot implementálta Pythonba, hogy a megrajzolt képeket StreamDiffusionba táplálja. A „Brute-Force matcher” használatával az egymást követő képkockák jellemzőit illeszteti össze, és a homográfia segítségével mintegy madártávlatból láttatja a képet.

Szerinte a generatív mesterséges intelligencia nem csupán technikai eszköz, hanem segít az embereknek saját alkotásaik elkészítésében, olyan interakciókat biztosít, amelyek tovább serkentik kreatívitásukat.

Hírlevél feliratkozás
Ne maradjon le a vaol.hu legfontosabb híreiről! Adja meg a nevét és az e-mail-címét, és mi naponta elküldjük Önnek a legfontosabb híreinket!