Pär Abrahamsson

Top 10: Her er de mest populære CMS'er

Vi har experimenterat en del med det genom att ta registret från CMSCrawler och skicka till W3C:s validerings-API och har offentliggjort en del av det på http://www.infobyte.se/om-oss/nyheter/valideringskontroll-av-svenska-cms-sajter

Att göra det med hela registret verkar dock vara kapacitetsmässigt svårt eftersom det tar flera sekunder att validera en sajt så ska vi göra det i bredare omfattning så måste vi hitta en bättre teknik för det. Vi har också gjort en del SEO-tester, t ex så vet vi vilka sajter som över huvud taget har -tagar. Det finns några CMS har jag sett där inte en enda sajt verkar vara vettigt kodad ur SEO-synpunkt och då måste man ju fundera över om det är CMS:ets fel eller fel hos de som gör mallarna.

Mvh Pär Abrahamsson, Infobyte.

22. juni 2011 kl. 21:25
Top 10: Her er de mest populære CMS'er

Då har vi ändrat lite och hittat ett sätt att säkert identifiera fler SiteCore-sajter. Har slagit på en fullständig omscanning hav hela .DK-domänen. Vi har strax under 200.000 sajter i vårt register så det tar ytterligare någon timme innan det är klart. / Pär

13. januar 2011 kl. 14:05
Frontpage er danskernes foretrukne hjemmeside-værktøj

Jag har skruvat lite på Drupal-identifikationen. Får se om det ger någon effekt.

13. januar 2011 kl. 13:07
Frontpage er danskernes foretrukne hjemmeside-værktøj

Ännu idag finns det många som bygger sajter i FrontPage och även sajter som byter från CMS-lösningar till FrontPage. Det är inga stora volymer men jag gjorde en kontroll i Crawlerns databas och vi har hittat 170 sajter som bytt från ett CMS till FrontPage de senaste 3-4 månaderna.

13. januar 2011 kl. 11:49
Frontpage er danskernes foretrukne hjemmeside-værktøj

Nej det där tycker inte jag är någon bra metod. Den måste ge väldigt väldigt många false positives? Det finns ju gott om sökformulär, arkiv osv som rent allmänt använder q som frågevariabel. Allmänt i crawlern så försöker vi undvika false positives så långt det går, vi missar hellre att fastställa CMS än att chansa så att säga. / Pär.

13. januar 2011 kl. 11:42
Frontpage er danskernes foretrukne hjemmeside-værktøj

Per hostname. Innebär alltså exempelvis att www.infobyte.se, infobyte.se, www.infobyte.lv, www.cmscrawler.com, www.it-lots.se och en del annat räknas som olika sajter även om allt ligger i en enda CMS-installation. Vi har inte hittat något bättre sätt att definiera det på.

13. januar 2011 kl. 11:39
Top 10: Her er de mest populære CMS'er

Ja det håller jag med om att det är konstigt. Det ska vi ta och titta på. När det gäller SiteCore så tittar vi på Generator-tagen och det kanske kan finnas andra sätt att identifiera de sajterna. / Pär

13. januar 2011 kl. 11:35
Top 10: Her er de mest populære CMS'er

Det finns flera anledningar till att vi behandlar sajten som en "preview".

  1. Vi har inte scannat så väldigt länge i hela Europa. Vi började i Sverige för 1,5 år sedan, för ett år sedan tog vi med resten av Skandinavien, ytterligare några månader senare Baltikum, Tyskland och UK. Först i september 2010 började vi crawla hela Europa. Och eftersom vi på grund av crawler-modellen är beroende av länkar till sajter för att ha något att kontrollera så blir urvalet av sajter väldigt konstigt i början. Typiskt så hittar vi först de allra största sajterna samt lokala dotterbolagssajter till de sajter vi redan har i vårt register. Det tar ett tag innan crawlern tagit crawlat fram ett mer säkert sajtunderlag för ett land.

  2. Vi testar tekniken för att se vad som krävs, hur mycket besökare handlar det om, i vilket tempo behöver vi hitta nya sajter. Då och då stänger vi ner crawlern några dagar för underhåll. Den typen av grejor innebär att vi inte riktigt vågar lova realtidsinformation i varje ögonblick ännu.

  3. För att identifiera vissa system måste vi desvärre bortse från robots.txt-information. Det innebär att vi får en del frågor och synpunkter på hur vi agerar och varför vi försöker "hacka" administrativa sidor mm. Ännu så länge så har vi i samråd med jurister och ISP valt att köra på men det är inte säkert att det kommer att funka. Då kommer vi att tappa möjligheten att identifiera många viktiga system och då kan hela projektet förlora sin poäng. Det skulle ju vara väldigt trevligt om alla system kunde identifieras via en generator-tag men så är det absolut inte.

  4. Sajten har mycket att önska kring design, ergonomi och hur vi visar datat. Vi jobbar parallellt med att testa saker på den befintliga sajten samtidigt som vi bygger på en helt ny sajt.

13. januar 2011 kl. 09:25
Top 10: Her er de mest populære CMS'er

Vi lade ut möjligheten att se lokal information nu på morgonen faktiskt. Ännu så länge bara från CMS-vyn men det kommer TLD-baserade vyer om några dagar.

Men du kan alltså redan nu se lokal information genom att gå in på respektive CMS och titta hur många som använder det baserat på deras TLD.

Två exempel:http://www.cmscrawler.com/cmsinfo?cms=WordPresshttp://www.cmscrawler.com/cmsinfo?cms=Joomla!

13. januar 2011 kl. 09:06
Top 10: Her er de mest populære CMS'er

Ja det stämmer att vi själva är implementatörer av CMS-system men nej, vi försöker inte manipulera Crawlern på något vis. Projektet startades bland annat för att identifera de sajter som använder ett av de system som vi själva jobbar med, Lemoon och sedan har vi använt det för att identifiera döende system. Sedan spred sig ryktet om att vi hade det här registret och eftersom många frågade så bestämde vi oss för att publicera övergripande data publikt på www.cmscrawler.com istället för att manuellt besvara frågor.

Pär Abrahamsson, vd Infobyte.

13. januar 2011 kl. 08:55
Top 10: Her er de mest populære CMS'er

Du har troligen sett fel. Sharepoint har varit med i registret hela tiden, även långt innan vi började publicera informationen publikt.

Pär Abrahamsson, vd Infobyte.

13. januar 2011 kl. 08:48
Top 10: Her er de mest populære CMS'er

Nej det är inte gamla data. Crawlern arbetar dygnet runt och sorterar hela tiden bort sajter som inte går att nå och fyller å andra sidan på med nya eller nyupptäckta sajter. Däremot så ska man tänka på att det är en CRAWLER, dvs systemet är beroende av att det finns länkar till sajterna som ska CMS-bestämmas. Den modellen innebär att det blir fördröjningar innan vi upptäcker helt nya sajter.

Pär Abrahamsson, vd Infobyte.

13. januar 2011 kl. 08:47