Naukowcy z Uniwersytetu Stanu Ohio opracowali model jÄ™zykowy sÅ‚użący jako agent SI. Jego zadaniem ma być przeglÄ…danie stron internetowych i wykonywanie poleceÅ„ wydawanych przez użytkownika. DziÄ™ki temu osoby niewidome oraz z niepeÅ‚nosprawnoÅ›ciÄ… ruchowÄ… bÄ™dÄ… mogÅ‚y w peÅ‚ni korzystać z możliwoÅ›ci internetu. Twórcy zapewniajÄ… przy tym, że możliwoÅ›ci rozwiÄ…zania sÄ… dużo wiÄ™ksze. MogÅ‚oby ono analizować strony czy nawet caÅ‚e systemy w celu opracowywania ich udoskonaleÅ„.
– SÄ… różne technologie wspomagajÄ…ce osoby z różnego rodzaju niepeÅ‚nosprawnoÅ›ciami w dostÄ™pie do sieci, ale sytuacja jest daleka od ideaÅ‚u. Na przykÅ‚ad ktoÅ› może korzystać z czytnika ekranu do odczytywania na gÅ‚os zawartoÅ›ci strony internetowej, ale jest to dużo mniej efektywne w porównaniu do doÅ›wiadczeÅ„ wiÄ™kszoÅ›ci ludzi i dużo wolniejsze. Inni ludzie mogÄ… przejrzeć treść strony i wybrać z niej, co chcÄ… przeczytać. CzÄ™sto, aby te technologie wspomagajÄ…ce mogÅ‚y dziaÅ‚ać najlepiej, twórcy poszczególnych stron internetowych powinni przestrzegać okreÅ›lonych standardów i najlepszych praktyk, aby dostosować je do tej technologii. Niestety, czego nie da siÄ™ uniknąć, wielu projektantów stron internetowych nie realizuje tych zasad wcale lub robiÄ… to w nieodpowiedni sposób, co również przyczynia siÄ™ do tego, że te technologie wspomagajÄ…ce dziaÅ‚ajÄ… w sposób odbiegajÄ…cy od optymalnego – mówi agencji Newseria Innowacje Yu Su z Uniwersytetu Stanu Ohio.
ChcÄ…c poprawić dostÄ™p osób z niepeÅ‚nosprawnoÅ›ciami do internetu, badacze z Uniwersytetu Stanu Ohio rozpoczÄ™li prace nad agentami sztucznej inteligencji, którzy bÄ™dÄ… mogli wykonywać zadania na dowolnej stronie internetowej, zlecane za pomocÄ… prostych poleceÅ„ jÄ™zykowych.
– ChcieliÅ›my stworzyć coÅ›, co okreÅ›liliÅ›my jako ogólni agenci surfowania (ang. generalist web agents). SÄ… to agenci SI, za pomocÄ… których można wejść na dowolnÄ… stronÄ™ internetowÄ…, jednÄ… z miliardów dostÄ™pnych, i wykonać okreÅ›lone zadanie. Agent SI zrozumie polecenie i zapozna siÄ™ z treÅ›ciÄ… strony internetowej, chociaż widzi jÄ… po raz pierwszy, oraz wykona polecenie – wyjaÅ›nia Yu Su.
Badacze rozpoczÄ™li dziaÅ‚anie od stworzenia Mind2Web, pierwszego zbioru danych dla uniwersalnych agentów internetowych, który w peÅ‚ni uwzglÄ™dnia zÅ‚ożonÄ… i dynamicznÄ… naturÄ™ witryn internetowych w Å›wiecie rzeczywistym. ZespóÅ‚ wykonaÅ‚ ponad 2 tys. zadaÅ„ opartych na 137 różnych witrynach internetowych, które nastÄ™pnie wykorzystaÅ‚ do przeszkolenia agenta. Zadania obejmowaÅ‚y m.in. rezerwowanie miÄ™dzynarodowych lotów w jednÄ… stronÄ™ i w obie strony, Å›ledzenie kont gwiazd na Twitterze czy przeglÄ…danie filmów komediowych z lat 1992–2017 udostÄ™pnianych w serwisie Netflix. Wiele z tych zadaÅ„ byÅ‚o bardzo skomplikowanych. To na przykÅ‚ad rezerwacja jednego z miÄ™dzynarodowych lotów, która wymagaÅ‚a aż 14 dziaÅ‚aÅ„.
– OpracowaliÅ›my również modele oparte na dużych modelach jÄ™zykowych, takich jak ChatGPT, GPT-4, aby przeglÄ…dać kod i html stron internetowych i na tej podstawie wykonać polecenie użytkownika. Wyniki byÅ‚y jednak dość sÅ‚abe, wskaźnik powodzenia okazaÅ‚ siÄ™ niski. NastÄ™pnie znacznie ulepszyliÅ›my narzÄ™dzie, uzupeÅ‚niajÄ…c je o dodatkowy wbudowany model. Wtedy agenci mogli nie tylko przeglÄ…dać kod html jako tekst, ale także widzieć rendering wizualny strony, do którego majÄ… dostÄ™p ludzie. OkazaÅ‚o siÄ™, że to bardzo uproÅ›ciÅ‚o sprawÄ™, podniosÅ‚o znacznie wskaźnik powodzenia i zbliżyÅ‚o go do zastosowania praktycznego – podkreÅ›la naukowiec z Uniwersytetu Stanu Ohio.
W efekcie agent dziaÅ‚a w sposób podobny do tego, jak zachowujÄ… siÄ™ ludzie podczas przeglÄ…dania sieci. Jak podkreÅ›lajÄ… twórcy, ich model jest w stanie zrozumieć ukÅ‚ad i funkcjonalność różnych witryn internetowych, wykorzystujÄ…c jedynie zdolność do przetwarzania i przewidywania jÄ™zyka.
– NarzÄ™dzia te bÄ™dÄ… bardzo pomocne w dostÄ™pie do internetu osobom z wadÄ… wzroku lub z niepeÅ‚nosprawnoÅ›ciÄ… fizycznÄ…, która utrudnia korzystanie z myszy czy klawiatury. MogÄ… one im pomóc w tym, aby ich doÅ›wiadczenia z korzystaniem z internetu byÅ‚y dużo bardziej zbliżone do doÅ›wiadczeÅ„ innych ludzi, w porównaniu do tradycyjnych technologii asystujÄ…cych. JednoczeÅ›nie wiele innych osób może użyć tych narzÄ™dzi przy codziennym korzystaniu z sieci. WspóÅ‚czesne strony internetowe sÄ… bardzo zÅ‚ożone – po wejÅ›ciu na stronÄ™ widzimy niezliczone banery, a chcemy tylko znaleźć konkretne informacje, które sÄ… ukryte. JeÅ›li posÅ‚użymy siÄ™ agentem, który zrozumie takÄ… zÅ‚ożonÄ… stronÄ™ internetowÄ… i znajdzie na niej informacje za nas, zaoszczÄ™dzimy wiele czasu – zauważa Yu Su.
Choć model zostaÅ‚ stworzony z myÅ›lÄ… o tym, by sÅ‚użyÅ‚ ludziom korzystajÄ…cym z internetu, zwÅ‚aszcza tym, którzy majÄ… to utrudnione z uwagi na niepeÅ‚nosprawność, to twórcy podkreÅ›lajÄ…, że można go również wykorzystać do ulepszania rozwiÄ…zaÅ„ z zakresu sztucznej inteligencji, takich jak np. ChatGPT. RozwiÄ…zanie to zapeÅ‚nia lukÄ™ komunikacyjnÄ…, jaka istnieje miÄ™dzy ludźmi posÅ‚ugujÄ…cymi siÄ™ swoimi jÄ™zykami narodowymi a komputerami korzystajÄ…cymi z jÄ™zyków programowania. To swoisty pomost miÄ™dzy tymi sposobami komunikacji.
– W ten sposób użytkownicy bÄ™dÄ… mogli posÅ‚ugiwać siÄ™ codziennym jÄ™zykiem komunikacji do porozumiewania siÄ™ ze Å›wiatem komputerów bez koniecznoÅ›ci uczenia siÄ™ nowych jÄ™zyków komputerowych. Aby przybliżyć ten temat, czÄ™sto korzystam z nieco oklepanego stwierdzenia – chcemy, aby maszyny rozumiaÅ‚y myÅ›lenie czÅ‚owieka, ale nie żeby ludzie myÅ›leli jak maszyny – mówi naukowiec.
Jak podkreÅ›la, nowe rozwiÄ…zanie może sÅ‚użyć także podnoszeniu efektywnoÅ›ci osób na co dzieÅ„ korzystajÄ…cych z sieci, wyrÄ™czajÄ…c ich w wyszukiwaniu niezbÄ™dnych informacji na stronie internetowej. Po drugie, jest także narzÄ™dziem demokratyzacji sztucznej inteligencji, czyli zwiÄ™kszania jej dostÄ™pnoÅ›ci dla szerokiego grona odbiorców.
– Wszelkie bariery w dostÄ™pie zwykle powiÄ™kszajÄ… nierównoÅ›ci w spoÅ‚eczeÅ„stwie, ponieważ tylko dysponujÄ…ce znacznymi zasobami organizacje i jednostki mogÄ… mieć dostÄ™p do najbardziej zaawansowanych technologii. Nie dotyczy to technologii SI, nad którÄ… pracujemy, ponieważ jest ona dostÄ™pna dla każdego. DziÄ™ki demokratyzacji zaawansowanych technologii SI mamy nadziejÄ™ umożliwić każdemu korzystanie z tych technologii do usprawnienia pracy i poprawy jakoÅ›ci życia oraz zapewnić udziaÅ‚ w korzyÅ›ciach pÅ‚ynÄ…cych ze sztucznej inteligencji jako prawdopodobnie najpotężniejszej technologii automatyzacji naszych czasów – kwituje Yu Su.
Badacze zwracajÄ… jednak uwagÄ™ na to, że tego typu narzÄ™dzia mogÄ… mieć też swojÄ… ciemnÄ… stronÄ™ i stanowić wsparcie dla osób o niejasnych intencjach. Agenci SI mogÄ… bowiem podejmować potencjalnie niebezpieczne dziaÅ‚ania zmierzajÄ…ce np. do szerzenia dezinformacji lub niewÅ‚aÅ›ciwego wykorzystywania informacji finansowych.
WedÅ‚ug PR Newswire Å›wiatowy rynek dużych modeli jÄ™zykowych do 2029 roku osiÄ…gnie wartość prawie 41 mld dol. Dla porównania w 2022 roku byÅ‚o to 10,5 mld dol.
