Организация хранения и поиска информации в сети Internet

скачать (238.5 kb.)

  1   2
Курсовая работа

по

На тему: "Организация хранения и поиска информации в сети Internet"


Введение
Интернет как средство информации в России пока не может конкурировать с традиционными СМИ, но имеет в этом отношении большие перспективы и сможет в дальнейшем выступать наравне с другими информационными ресурсами.

В настоящее время свыше 500 млн. человек более или менее регулярно пользуются

Интернетом, а через два года их число, по мнению экспертов, превысит 1 млрд., иными словами, более 16% населения Земли. Разумеется, такая колоссальная аудитория не могла остаться невостребованной – Интернет давно превратился в огромную информационную площадку.

Во всем мире, а теперь и у нас в стране, наличие работающего Web-сайта становится признаком стабильной, профессиональной работы фирмы. Интернет давно уже стал не только средством общения, но и полем для серьезной коммерческой деятельности. Практически каждая зарубежная фирма имеет в Сети свое представительство, виртуальный офис. Суммарный оборот компаний, ведущих торговлю в Интернет, достигает миллиардов долларов. В России также все большее число компаний использует Интернет для продвижения своих товаров и услуг. В этом легко убедиться, просмотрев рекламные издания. Рядом с привычными номерами телефонов и факсов все чаще и чаще встречаются адреса электронной почты и Web-сайтов. Скоро отсутствие адреса в Интернет будет затруднять работу так же, как отсутствие факса. Тот, кто займет себе место сейчас, существенно выиграет в будущем. Это оперативность и актуальность. Традиционные средства массовой информации при всей их наглядности и привычности уже не способны обеспечить надлежащий уровень оперативности, требуемый современному человеку. Поэтому все больше и больше людей обращаются в Интернет, чтобы получить самую свежую информацию: об услугах и ценах, погоде, курсах валют, просто новости. На Web-сайте можно менять информацию несколько раз в день. В печатных изданиях надо заказывать рекламу минимум за неделю, а то и больше. А в Интернет все оперативно: новые товары или услуги, новая скидка или новый поставщик – завтра об этом узнают клиенты. Нет необходимости ждать, пока выйдет очередной выпуск печатной рекламы. Информация на сайте будет всегда актуальной, самой свежей. Именно это ценят, именно это привлекает в Интернет миллионы пользователей.


1. Хранение данных в сети Internet
1.1 Гипертекстовые документы, виды файлов

Под гипертекстовым документом понимают документ, содержащий так называемые ссылки на другой документ. Реализовано все это через протокол передачи гипертекста HTTP (HyperText Transfer Protocol).

Информация в документах Web может быть найдена по ключевым словам. Это означает, что каждый обозреватель Web содержит определенные ссылки, через которые образуются так называемые гиперсвязи, позволяющие миллионам пользователей Internet вести поиск информации по всему миру.

Гипертекстовые документы создаются на базе языка HTML (HyperText Markup Language). Этот язык весьма прост, управляющие коды его, которые, собственно, и компилируются обозревателем для отображения на экране, состоят из текста ASCII. Ссылки, списки, заголовки, картинки и формы называются элементами языка HTML, которые позволяют щелчком мыши перейти к просмотру другого документа.

Существует два способа создания гипертекстовых документов. Можно воспользоваться одним из WYSIWYG HTML-редакторов (например, Netscape Composer, основы работы с котором рассмотрены в разделе «Обработка текста на ЭВМ», Microsoft FrontPage, HotDog, или др.), для работы с которыми не требуется специальных знаний о внутренней структуре создаваемого документа. Этот способ позволяет создавать документы для WWW без знания языка HTML. HTML-редакторы автоматизируют создание гипертекстовых документов, избавляют от рутинной работы. Однако их возможности ограничены, они сильно увеличивают размер получаемого файла и не всегда полученный с их помощью результат соответствует ожиданиям разработчика. Но, безусловно, этот способ незаменим для новичков в деле подготовки гипертекстовых документов.

Альтернативой служит создание и разметка документа при помощи обычного редактора plain-текста (таких, как emacs или NotePad). При этом способе в текст вручную вставляются команды языка HTML. Создавая документы таким способом, вы точно знаете, что делаете.

Как уже отмечалось, HTML-документ содержит символьную информацию. Одна ее часть – собственно текст, т.е. данные, составляющие содержимое документа. Другая – теги (markup tags), называемые также флагами разметки, – специальные конструкции языка HTML, используемые для разметки документа и управляющие его отображением. Именно теги языка HTML определяют, в каком виде будет представлен текст, какие его компоненты будут исполнять роль гипертекстовых ссылок, какие графические или мультимедийные объекты должны быть включены в документ. Графическая и звуковая информация, включаемая в HTML-документ, хранится в отдельных файлах. Программы просмотра HTML-документов (браузеры) интерпретируют флаги разметки и располагают текст и графику на экране соответствующим образом. Для файлов, содержащие HTML-документы, приняты расширения.htm или.html.

Прописные и строчные буквы при записи тегов не различаются. В большинстве случаев теги используются парами. Пара состоит из открывающего (start tag) и закрывающего (end tag) тегов. Синтаксис открывающего тега:

<имя_тега [атрибуты]>

Прямые скобки, используемые в описании синтаксиса, означают, что данный элемент может отсутствовать. Имя закрывающего тега отличается от имени открывающего лишь тем, что перед ним ставится наклонная черта:



Атрибуты тега записываются в следующем формате:

имя [= «значение»]

Кавычки при задании значения аргумента не обязательны и могут быть опущены. Для некоторых атрибутов значение может не указываться. У закрывающего тега атрибутов не бывает.

Действие любого парного тега начинается с того места, где встретился открывающий тег и заканчивается при встрече соответствующего закрывающего тега. Часто пару, состоящую из открывающего и закрывающего тегов, называют контейнером, а часть текста, окаймленную открывающим и закрывающим тегом, – элементом.

Последовательность символов, составляющая текст, может состоять из пробелов, табуляций, символов перехода на новую строку, символов возврата каретки, букв, знаков препинания, цифр, и специальных символов (например, +, #, $, @), за исключением следующих четырех символов, имеющих в HTML специальный смысл: < (меньше), > (больше), & (амперсенд) и " (двойная кавычка). Если необходимо включить в текст какой-либо из этих символов, то следует закодировать его особой последовательностью символов.

К специальным символам можно отнести и неразрывный пробел. Использование этого символа – один из способов увеличить расстояние между некоторыми словами в тексте. Обычные пробелы использовать для этих целей нельзя, так как группа подряд идущих пробелов интерпретируется браузером как один.

1.2 Графические файлы, их виды и особенности
В настоящее время использование полноцветной качественной графики реалистичных цветов на компьютерах класса ПК выглядит совершенно обыденным. Хотя не так давно это было привилегией издательских систем, которые обычно строились на платформах Macintosh или графических станций Silicon Graphics. Пользователи ПК довольствовались же в крайнем случае графикой с цветом, глубиной максимум 8 бит/пиксел (256 цветов) при довольно слабой разрешающей способности 320Х200 или же 16 цветами при разрешении 640Х480.

Сейчас, с развитием архитектур видеоадаптеров и удешевлением видеопамяти на различных микросхемах, среднестатистическому пользователю вполне доступны системы на платформе ПК, успешно работающие с реалистичными (TrueColor) изображениями глубиной 24 бита / пиксел (более 16 млн. цветов).

В связи с техническим прогрессом возникла потребность в перенесении на платформу ПК и адаптации различных форматов кодирования и хранения графической информации с других платформ (например Macintosh, где подобные разработки развиваются в течение уже второго десятка лет), или же разработка собственных, ориентированных на ПК графических форматов, полностью учитывающих все особенности архитектуры их видеоадаптеров.

Более того, в последние 5 лет в связи с молниеносным распространением Internet и, в частности, технологий World Wide Web, стала вставать проблема другого рода – разработка форматов изображений достаточно компактных для передачи в сети с минимальными задержками и аппаратно независимых, так как к сети подключены компьютеры самых различных архитектур.

В связи с этим, хотелось бы кратко рассмотреть несколько распространенных графических форматов и кратко охарактеризовать их возможности. Все эти сведения сведены в нижеследующую таблицу:


Формат

Макс. глуб. цвета

Макс. число цветов

Макс. размер изображения,

пиксел

Методы

сжатия

Кодирование нескольких изображений

BMP

24

16'777'216

65535x65535

RLE*

-

GIF

8

256

65535x65535

LZW

+

JPEG

24

16'777'216

65535x65535

JPEG

-

PCX

24

16'777'216

65535x65535

RLE

-

PNG

48

281'474'976'710'656

2147483647x

2147483647

Deflation (LZ77)

-

TIFF

24

16'777'216

всего 4'294'967'295

LZW, RLE и другие*

+


Кроме этого следует отметить, что наиболее компактными являются форматы JPEG, GIF, PNG, которые, к тому же, платформенно-независимы. Формат BMP является стандартным форматом Windows, однако большого распространения не получает из-за непомерных размеров файлов, особенно при сохранении графики с глубиной цвета 24 бит/пиксел. Касаемо формата TIFF следует заметить, что он, как и JPEG, GIF, является частично платформенно-независимым, однако слишком объемен для использования в сети и, что еще хуже, слишком сложен для интерпретации. Кроме того любые программные изделия, в том числе и просмотровщики графических файлов, содержащие код для кодирования / декодирования данных по алгоритму LZW должны распространяться по соответствующему лицензионному соглашению компании Unisys Corp., владельца алгоритма, что дополнительно удорожает эти продукты.

Дальнейшее рассмотрение мне хотелось бы обратить к межплатформенным форматам, принятым в Internet в качестве стандарта де-факто: JPEG, GIF, PNG.

Сразу хочу заметить, что формату PNG (Portable Network Graphic) не будет уделено много внимания, хотя, возможно, он его и заслуживает. Это является следствием того, что формат этот появился не так давно и несмотря на все свои достоинства еще не получил всеобщего признания.

Итак, фактически перед человеком или компанией, которая намерена размещать на своих дисках большое количество изображений и, возможно, предоставлять их для использования в Internet, встает дилемма: что выбрать GIF или JPEG.

Формат GIF, разработанный компанией CompuServe, и изначально предлагавшийся именно как формат для обмена изображениями в сети является форматом с достаточно высокой степенью сжатия изображения. Кроме того, GIF обладает дополнительными возможностями, которые делают его использование в сети привлекательным. Первая – это возможность изменения порядка вывода на экран строк изображения, с заполнением промежутков между ними временной информацией. Визуально это выглядит так, что по мере загрузки из сети (что происходит нередко с катастрофически низкой скоростью) изображение на экране появляется как бы «в низком качестве», а затем, по мере подгрузки дополнительной информации, восстанавливает пропущенные строки изображения. Таким образом, пользователь еще до окончания процесса загрузки может получить представление о содержимом изображения и прервать загрузку ненужного файла большого размера. Вторая возможность заключается в хранении в одном файле боле чем одного изображения, что делает возможной элементарную покадровую анимацию. Еще одной отличительной особенностью GIF является то, что один из цветов можно объявить «прозрачным», и тогда при выводе изображения те его части, которые выкрашены этим цветом не будут выводиться на экран и под ними будет виден фон, на который изображение накладывается. Самым же большим недостатком GIF является то, что он может хранить изображение, состоящее максимум из 256 цветов, что в последнее время становиться все менее и менее приемлемым. Вместе с этим, пользователей GIF преследует такая же неприятность, что и в случае с форматом TIFF: GIF также использует LZW-сжатие, а следовательно, каждое изображение может распространяться только при наличии соответствующего лицензионного соглашения.

Формат JPEG является TrueColor-форматом, то есть может хранить изображения с глубиной цвета 24 бит/пиксел. Такой глубины цвета достаточно для практически точного воспроизведения изображений любой сложности. Более глубокое представление цвета (например 32 бит/пиксел) реально оказывается практически неотличимым от данного при просмотре на современных мониторах и при распечатке на большинстве доступных принтеров. Такая глубина цвета может оказаться полезной разве только в издательской деятельности. JPEG в общем обладает более высокой степенью сжатия изображений, нежели GIF (подробнее этот аспект описан в главе «Практики использования JPEG»), но не обладает возможностью хранить несколько изображений в одном файле. Недавно была разработана модификация формата JPEG, получившая название Progressive JPEG, что приблизительно можно перевести на русский язык как «постепенный JPEG», который предназначен для тех же задач, что и чересстрочное отображение GIF-изображений. Это сделало формат JPEG еще более привлекательным в качестве сетевого стандарта. Однако, и в JPEG присутствуют свои недостатки. В отличие от GIF, который может эффективно сжимать изображения практически любого содержания, JPEG ориентирован прежде всего на реалистичные изображения, то есть изображения фотографической направленности, и качество сжатия значительно ухудшается при обработке изображений с четко очерченными линиями и границами цветов.

Таким образом, нельзя до сих пор сделать окончательного выбора в пользу одного или другого формата. Однако, мне формат JPEG представляется более интересным с точки зрения оригинального алгоритма сжатия и больших возможностей для развития в перспективе. Также формат JPEG следует считать однозначно более гибким: он позволяет выбирать между хорошим качеством изображения или хорошей степенью сжатия и находить приемлемый компромисс для каждого конкретного случая. Поэтому все дальнейшее исследование посвящено именно этому формату.
1.3 Поисковые системы и правила поиска информации
Удобство Интернета в том, что в нем можно найти практически любую информацию, даже когда мы не знаем точно, где она находиться. Если адрес страницы с интересующим нас материалом неизвестен и страницы с подходящими ссылками тоже нет, приходиться разыскивать материалы по всему Интернету. Для этого применяют поисковые системы Интернета – специальные web-узлы, позволяющие найти нужный документ.

Существует два основных метода поиска в Интернете. В первом случае вы ищите web-страницы, относящиеся к определенной теме. Поиск производится путем выбора тематической категории и постепенным ее сужением. Подобные поисковые системы называют поисковыми каталогами. Они удобны, когда вам нужно вые познакомиться с новой для себя темой или добраться до широко известных «классических» ресурсов по данной теме. Второй способ поиска используется, когда тема носит узкий, специфический характер или нужны редкие, малоизвестные ресурсы. В этом случае вы должны представлять себе, какие ключевые слова должны встретиться в документе по интересующей вас теме. Эти слова надо выбрать таким образом, чтобы они, скорее всего, имелись в нужных документах, не имеющих отношения к выбранной теме. Системы, позволяющие выполнять подобный поиск, называют поисковыми указателями. Поисковые каталоги отличаются от поисковых указателей не только методом поиска, но и способом формирования. Любая поисковая система Интернета состоит из двух частей. Специализированная web-страница, доступная всем желающим и позволяющая выполнять поиск, опирается на большую, постоянно пополняемую и обновляемую базу данных, которая содержит сведения о ресурсах Интернета.

Способ пополнения этой базы данных зависит от типа поисковой системы, поисковых каталогов самое главное – это точность отбора. Каждый найденный ресурс должен быть полезным. Тематика страницы определяется или проверяется вручную. Из-за этого объем поисковых каталогов относительно невелик. Когда объем приближается к миллиону страниц, объем ручного труда настолько велик, что дальнейший рост каталога останавливается.

Поисковые указатели, напротив, ориентированы на широту охвата. С определением слов, имеющихся на web-странице, вполне справляется автоматика, данных поискового указателя может охватывать многие миллионы web-страниц. При этом выполнять поиск в указателе труднее, чем в каталоге, потому что одни те же ключевые слова могут встречаться на web-страницах, посвященным разным темам.

Информационно-поисковые системы размещаются в Интернете на общедоступных серверах. Основой поисковых систем являются так называемые поисковые машины, или автоматические индексы. Специальные программы-роботы (известные также как пауки) в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос, который обрабатывается системой, после чего в окно браузера выдаются результаты обработки запроса. Механизмы обработки запросов постоянно совершенствуются, и современные поисковые системы не просто перебирают огромное число документов. – Поиск ведется на основе оригинальных и весьма сложных алгоритмов, а его результаты анализируются и сортируются таким образом, чтобы представленная пользователю информация в наибольшей степени соответствовала его ожиданиям.
В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, в объединение их возможностей вполне логично.

Тем не менее исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Поэтому не стоит ограничиваться использованием какой-либо одной из них. Если вам не удалось отыскать интересующую вас информацию с помощью одной системы, попробуйте воспользоваться другой.

Каждая поисковая Система имеет свои особенности и, и качество полученного результата зависит от предмета поиска и точности формулировки запроса. Поэтому, приступая к поиску информации, прежде всего, нужно четко представлять себе, что именно и где вы хотите найти. Например, зарубежные системы поражают числом проиндексированных документов. Для поиска в области профессиональных знаний, особенно информации на иностранном языке, такие системы, как AltaVista, HotBot или Northern, подходят наилучшим образом.

Однако для поиска информации на русском языке, особенно в российской части Интернета, лучше приспособлены русские поисковые машины. Во-первых, они специально ориентированные именно на русскоязычные ресурсы Сети и, как правило, отличаются большей полнотой охвата и глубиной исследования эти ресурсов. Во-вторых, российские системы работают с учетом морфологии русского языка, то есть в поиск включаются все формы искомых слов. Российские системы лучше учитывают и такую исторически сложившуюся особенность российских Интернет-ресурсов, как сосуществование нескольких кодировок кириллицы.
  1   2



Рефераты Практические задания Лекции
Учебный контент

© ref.rushkolnik.ru
При копировании укажите ссылку.
обратиться к администрации