Diffbot API använder visuell inlärning för att analysera webbinnehåll

Diffbot

DiffbotDiffbot gör dess programmeringsgränssnitt för visuellt lärande (API) tillgängligt för utvecklare som vill skapa appar som behöver förstå strukturen på webbsidor på ett effektivt sätt. Traditionellt skulle utvecklare som ville förstå en webbsida börja med att titta på dess kod. Därifrån kan många algoritmer användas för att extrahera information som ett artikelinnehåll, ett författarnamn osv … Eftersom varje sidas HTML-kod är annorlunda är det ofta svårt att få konsekventa resultat genom att bara titta på HTML-koden.

Å andra sidan är varje webbsida byggd för “människor”, och det är precis vad Diffbot använder som grund för sin teknik. I stället för att titta på HTML-koden använder Diffbot datorsynsteknik för att bestämma innehållet. Till exempel använder en titel ofta större text och författarnamnet är vanligtvis nära toppen av artikeln. Naturligtvis kan Diffbots algoritm hantera en mängd olika situationer, men du förstår poängen. Diffbots har två API: er:

1 / Behandling av webbsidor på begäran. Detta kan till exempel användas för att extrahera element på en webbsida som kan vara av intresse, som titelinnehåll och bilder på en sida, medan andra funktioner som annonser eller navigationselement ignoreras.

2 / A Follow API, som används för att upptäcka ändringar på en webbsida och extrahera relevant information som kan användas för att illustrera förändringen.

Information extraherad från en Ubergizmo-sida, varje dataklump kan nås oberoende

Det är verkligen upp till utvecklare att använda dessa byggstenar för att skapa fantastiska applikationer, men jag kan säga att om det fungerar som annonserat (jag har inte haft tid att prova det ännu) är det något som borde tillföra mycket värde för det är svårt att bygga. Till exempel använder AOL Editions (webbplatsen inte längre finns) redan Diffbots teknik.

API: et är gratis inom en relativt stor gräns för antalet API-samtal som man kan utföra. Utöver detta måste utvecklare betala “per API-samtal”, vilket innebär att de måste tjäna pengar på sin applikation. Företag som har känslig information kan också få en licens som körs på en privat server i sina brandväggar.

Att använda datorvisionsteknik för att titta på webbsidor är en bra idé och en som skulle kringgå många knep som är utformade för “bots”. Naturligtvis kan du förvänta dig att ha några problem här och där, men för de flesta utvecklare som behöver denna typ av funktionalitet ser det ut som en guldgruva.

Länkar: Diffbot SDK / Docs,

Sparad i Breaking> Webb. Läs mer om Api, Developer, Development och Sdk.