Pogosta vprašanja in odgovori.
Moj mali eksperiment. Z njim opazujem gibanje zanimanja v slovenskem (spletnem) medijskem prostoru. Ko dobim novo idejo, spremenim algoritme in prikaz. Včasih je sprememba dobra, včasih ne ... Je odprt za vse, ki vas zanima kaj je trenutno popularno pri nas oziroma kaj se Slovencem zdi pomembno nek dan.
Prikazujejo se objave, ki so mlajše od 2 dni, tako da je vsebina vedno sveža.
Gre za delovno ime. Ni nujno, da ostane. Enkrat mi je padlo na pamet in iz njega sem razvil ta servis. Zamislil sem si vrtni šlauf iz katerega tečejo novice. Včasih hitreje, učasih počasneje ... Ja, sanjaril sem o vročem poletju. Upam, da mi ne zamerite. :)
Update: Ostalo je 10+ let. 😅 Nič ni bolj večnega, kot začasne odločitve. Zato sem na vrh dodal naziv "Novice tu in zdaj", da se nekaj premakne. 😎
Bolj srečen emoji pomeni bolj pozitivno novico, žalosten/jezen pa negativno. Za analizo uporabljam najmanjši možni AI model, ki še razume slovenski jezik. Številke so torej relativne in ne absolutne (ker vsak model to po svoje vrne). Primarno me je zanimalo razmerje negativnih in pozitivnih novic. Pa filtre sem hotel imet.
Spisek
Pozitivni: 😍 😁 😊 🙂
Negativni: 😡 😠 😒 🙁
Številka pomeni popularnost. Kombinacija popularnosti (objave, komentarji, všečki) na različnih omrežjih, iz katerih je še mogoče dobiti te podatke. Uporabljam razne javne API, da to seštejem in po Reddit algoritmu obtežim.
Razloženo pod Kaj je to.
So po vrsti, vendar v drugačni vrsti, kot deluje na prvi pogled. Objave so objavljene po algoritmu, ki upošteva število glasov in svežino objave. Članki, ki dobijo kmalu po objavi več točk, splavajo višje kot tisti, ki jih nabirajo skozi daljše obdobje. Temu rečemo "vroči" algoritem in je podoben tistemu, ki ga uporablja Reddit.com.
Za oboje uporabljam AI modele. Tiste najbolj poceni, ki znajo to ugotoviti. Sentiment je relativno enostavna zadeva za LLM, zato uporabljam brezplačne klice na Google Gemma, novinarski pristop pa zahteva malo več znanja - zanj uporabljam gpt-4.1-nano. Testiral sem še druge, ki so dali tudi boljše rezultate, ampak ta kombinacija je najbolj poceni.
Javno dostopni kanali medijev. Trenutno berem okoli 100 različnih slovenskih medijev različnih velikosti. Če se ti zdi, da sem katerega pomembnega pozabil, mi pošlji povezavo. Maila tukaj ne bom objavil, ker spam, ampak dobiš me na vseh socialnih omrežjih kot McLion.
Trenutni spisek novic:
Ker je tam moj dom in so mi takšne informacije pomembne. :)
Algoritem, ki ugotavlja "lokalnost" je dokaj neumen. V besedilu išče besede povezane z Obalo in imeni, ki se pogosto pojavljajo pri nas. Pogosto to povzroči "false positives". Zadeva ne uporablja niti algoritma, ki ga koristim za ugotavljanje podobnosti objav, tako neumno je. Je pa dovolj za pokrivanje moje radovednosti, vsaj kar se domačih krajev tiče.
Gre za dokaj pameten algoritem, če jemljemo slovar kot nekaj zelo inteligentnega. Uporabil sem javno dostopen slovar osnovnih oblik besed (korpus, leme), ki ga dobite s kopanjem skozi povezave na slovenscina.eu in na Projektu JOS. Moj slovar je sicer malo predelan in vanj je dodanih nekaj besed oz. imen, ki se pogosto pojavljajo v slovenskih medijih.
S pomočjo slovarja dobim spisek besed v imenovalniku, ki se pojavijo v naslovu in uvodniku. Zatem z algoritmom za ugotavljanje "bližine besedil" dobim ven neko številko in če je nad nekim minimumom, ki je ročno postavljen, povežem dokumenta kot podobna.
Tako početje ima sicer en stranski učinek. Hitro izpostavi vsebino, ki jo mediji enostavno skopirajo iz STA in podobnih virov.
Ne, ta algoritem ni tako dober, kot tisti od Najdi.si ali Googla. Nimam iskalnika v ozadju in velike baze znanja, da bi se lahko sistem samostojno učil.
Nimam nekih posebnih planov. Gre za moj peskovnik, kjer implementiram ideje, ki mi pridejo na pamet ob tistih trenutkih, ko me internet ne moti ... v podrobnosti se tukaj ne bom spuščal, ker je verjetno že vsem jasno. :)
Če imate kakšno idejo kako bi te algoritme ali aplikacijo uporabili na zanimiv način, dobite moje kontakte na Linkedinu.
Enkrat dnevno vzamem vse novice, jih grupiram po pozitivne/negativne, pošljem skozi LLM z navodili, da mi vrne tudi ID-je teh novic v povzetku, ki ga spiše in to zapišem v bazo. Z LLM-ji je to postalo zelo enostavno in zelo poceni (manj kot 1 eur/mesec)